深度学习神经网络学习笔记-多模态方向-05-An Efficient Normalized Restricted Boltzmann Machine for Solving Multiclass Cl

摘要

利用计算机视觉和图像处理基于未标记图像的多类分类是目前的一个重要问题。在这项研究中,我们重点研究了为类驱动的无标记数据构建高级特征检测器的现象。我们提出了一种归一化受限玻尔兹曼机(NRBM)来形成一个鲁棒的网络模型。所提出的NRBM的开发是为了实现降维的目标,并在学习更合适的数据特征方面提供更好的特征提取,并进行增强。为了提高学习收敛速度并降低NRBM的复杂度,我们在训练更新参数时添加了Polyak平均法。我们在修改后的美国国家标准与技术研究所数据库(MNIST)基准数据集的五个变体上训练所提出的NRBM网络模型。所进行的实验表明,与最新的方法相比,所提出的NRBM对噪声数据具有更强的鲁棒性。
Keywords-Multiclass分类;受限玻尔兹曼机;波里亚克平均;图像分类;修改后的国家标准与技术研究所数据集。

介绍

分类是指对不同形式、类型和其他有区别类的数据进行分类和分类的过程。分类的目的是指将数据分类、组装、组织和区分成类或组。在统计和机器学习方面,基于分类的计算机程序,监督从输入的现有数据中学习,并代表学习数据[1]将其分类到不同的类别。有一些基于分类的问题,比如:生物特征分类,文本分类,音频分类,以及视频分类[2],[3]。从分类或分类中生成结果的现象要么在两个类别中进行,要么在两个类别以上进行,这分别称为二分类或多分类。在分类算法中,有些本质上是多类分类器,它允许对两个以上类别的数据进行分类。具有二分类性质的算法也可以使用不同的方法[4]作为多项分类。
在多类分类问题中,监督行为学习算法的目标是为每个输入实例分配所需的类标签。对于给定的(aj , bj )数据集,其中bj ∈Risn 为jh实例t,b∈1,2,3…j k是jh类标签t,主要目的是找到一个学习H的模型,而H(a) = b对于所有j j 未知的测试实例。在最近的研究中,很多模型和算法

已被提出用于解决两类分类问题,其中一些算法易于扩展用于多类分类问题[5],[6],而另一些算法是基于特殊公式的,以便能够解决多类分类问题。在这些算法中,有一类模型的算法使用不同类型的方法将多分类问题转化为一堆二分类问题,以便使用二分类方法[7],[8]有效地解决它。多类分类方法的另一种方法是基于一个尝试在输出上提出一个树层次结构,另外还有可用的类标签,以便实现对新类标签检测的一系列测试。
解决多类分类问题仍然是一个具有挑战性的问题。在著名的分类方法中,多类分类问题是通过将问题分解为多个独立的二分类子问题来解决的。一般这种类型的解决方案被称为二值化,其中分类器在二分类[9]的基础上假装解决多类分类问题。最近的文献调查显示,在所有的多类分类问题中,图像分类吸引了目前研究人员的大部分兴趣。
基于面向无标签类的图像数据的图像分类是计算机视觉领域的一个具有挑战性的问题。需要在特征空间数量较少的无监督行为中训练分类模型。由于有各种各样的方法和技术用于图像分类,但仍然,在无标签数据上设计分类模型是一个不可忽视的挑战。在这项研究中,我们专注于设计和开发一种基于受限玻尔兹曼机(RBM)[10]的归一化网络,以及在训练时更新参数的Polyak平均方法[11],称为NRBM。由于学习到的特征可以在高尺度上经济地获得,但由时间手势组成,因为图像数据包含时间上可理解的帧。
在我们进行的实验中,提出的NRBM模型启动了从未标记数据中学习的策略。我们还表明,所提出的模型可以提取更多有用的特征用于最终分类。此外,我们在MNIST变体基准数据集上进行了一些实验来验证我们的模型。结果表明,所提出的NRBM模型能够学习到可以应用噪声和清晰的特征。

图像。此外,还设计了一个很有前途的指导模型,用于提取和学习特征以更好的方式进行分类。在低层特征的基础上,通过无监督的方式训练提出的NRBM模型来管理和分类海量图像,是我们本文研究的主要贡献。论文的其余部分组织如下结构。第2节探讨了关于图像分类模型的文献工作。第3节简要介绍了传统的受限玻尔兹曼机。第4节解释了我们提出的NRBM。在第5节中,我们描述了我们的实验来检查我们提出的模型,第6节介绍了NRBM与最先进模型的比较分析。最后,第7节总结了我们的研究工作和未来的方向。我们相信我们的研究将在许多计算机视觉应用中产生积极的影响,例如图像识别系统、视频分析仪和图像处理方法。

受限玻尔兹曼机

玻尔兹曼机(BM)属于基于概率分布进行机器学习的人工神经网络(ANN)的范畴。受限玻尔兹曼机(RBM)是标准玻尔兹曼机的著名变体之一,由Geoff Hinton[12]首先创建。RBM的主要目的是将高维数据降维到低维特征空间。由于它是一种基于概率的方法,这就是为什么它在本质上是随机和生成的。RBM的内部架构类似于其他神经网络(NNs),每一层都有神经元。但在RBM中只有两层。第一层指的是网络的输入层,而第二层是输入层输出的隐藏层。输入层和隐藏层的神经元之间有一个神经连接。在标准BM中,同层的神经元之间存在连接,但在RBM中,存在一个限制,即同层的神经元中没有一个可以与它们之间的神经元通信。

图1显示了RBM的内部架构,在隐藏层有x个隐藏节点,而在视觉层有y个可见节点。隐藏节点用手i i1, 2, 3,…x表示。而可见节点用V表示,这样j j1, 2, 3,…y.隐藏层和可见层之间的权值连接用Wj表示。iRBM能量的最终方程为:
在这里插入图片描述
式1中φ =(Wij, ai, bj ),这些都是实数。隐含层的偏置值用波段j 表示,其中,bresi 表示可见层的bais值。若φ已知,似然函数也称为可见层和隐藏层的联合概率分布,由式2表示。
在这里插入图片描述

归一化参数Z = (v, h)exp(−E(v, h|φ))。这个可见层和隐藏层的激活函数可以在等式3和等式4中格式化。
在这里插入图片描述
而sigmoid(x) = 1+e1−x。第j个隐藏节点被激活的概率由式3表示,第一个iht可见节点被激活的概率由式4表示。为φ找到可能的最合适的参数集是RBM训练的主要目的。输入数据可能会被训练好的模型痛苦地拟合。为了使用最大似然函数计算φ的最佳值,我们通过给出训练样本T来使用基于对数的似然函数,使T= v1r, v2, v3, vTrr 。φ的值为:

在这里插入图片描述
下面的算法1给出了RBM的步骤到步骤处理,传统的RBM架构如图1所示。
在这里插入图片描述
在这里插入图片描述
3RBM,用于解决多类分类问题
在最近的研究工作中,RBM被广泛用于不同类型的识别、预测和分类应用。例如,[13]使用RBM进行人脸检测和识别,与最先进的方法相比,获得了更好的结果。特别是[14]总结说,堆叠受限玻尔兹曼机(sRBM)的简单函数可以形成一个学习鲁棒特征的深度架构。此外,他们在人脸图像数据集(即Caltech 101图像)上训练了卷积深度玻尔兹曼机(DBMs)[15],并令人印象深刻,但不幸的是,他们的人脸检测器可以学习同质、对齐和单一类别的特征。
在文献中,BMs更多地用于预测[16]和基于语义的知识学习[17],[18],因为使用低水平表示生成输出很困难,例如[19]将视频帧序列分割为块,以离散顺序描述动作。[20]中的作者通过在单域边界中使用相同的方式去除背景来提取对象,而[21]以有监督的方式预测人体运动轨迹。此外,还发现了一些基于监督学习的建模和预测人类到目标[22]和人类到人类[23]的连接。在[24]中,作者提出了量子玻尔兹曼机(QBM),其灵感来自经典的玻尔兹曼机,其训练阶段基于随机梯度下降。他们为QBM使用了一个非平凡的训练过程,并为量子的概率引入了键。通过展示一些优于传统玻尔兹曼机的例子,验证了结果,这些例子基于使用静态对角化有界和无界训练QBM。
在[25]中,作者提出了一种基于RBM数字图像分类的随机架构。他们使用了四种类型的。

在实验中,为了在误码率和计算时间之间取得平衡,分别设置了512、1024、2048、4096个随机比特流。随机数发生器被用于将确定性输入数据值转换为随机数据值流。在[26]中,作者评估了ML模型,特别是用于异常网络入侵检测系统(A-NIDS)的RBM。他们在RBM中应用了超参数调优,并报告了一些关于准确率以及真阳性和真阴性率的观察结果。ISCX基准数据集的一个平衡子集被用于训练、验证和测试所提出的RBM模型。结果发现,RBM是A-NIDS中识别攻击模式的较好网络。
Gou C.在[27]中提出了用于汽车牌照识别的混合判别受限玻尔兹曼机(HDRBMs)。他声称,HDRBM是第一个基于RBM的混合模型,用于在如此宽广的视野下进行车牌号码检测和识别。他们使用了两个来自车牌数据集的高分辨率图像的数据子集。所进行的实验评估了他们提出的基于RBM的HDRBM在车牌检测和识别方面的性能优于许多最先进的模型。声称他们的模型也可以在其他国家有效使用,但字符的布局必须预先定义。在[28]中,作者提出了另一种模型,称为判别式受限玻尔兹曼机(discRBM),用于学习基于类标签的判别式特征集。然而,他们的结果得出结论,与传统的RBM、深度RBM和基于分类精度的SVM相比,discRBM表现良好,但他们的模型仍然受到数据集大小和复杂度的限制。

归一化受限玻尔兹曼机

我们提出的归一化受限玻尔兹曼机NRBM的灵感来自于一些基于深度学习和无监督特征学习的最新技术和算法。主要的灵感来源是受限玻尔兹曼机(RBM),它是基本玻尔兹曼机(BM)的著名变体之一。所提出的模型在无类标签图像上进行训练,目的是提取大量测试图像数据中包含的一定数量的时间信息特征。为了实现这一目标,我们研究了RBM的一些变体[29],[30],[31]和其他分类算法[32],[33],[34]。经过深入的文献研究,我们将受限玻尔兹曼机(RBM)从[10]扩展到RBM。我们提出了一个两阶段的训练模型,可以轻松地分别提取图像的背景和前景。这种前景和背景的分离有助于模型轻松快速地学习图像内部的对象特征。
这个研究模型的主要重点是解决由大量数据的高维特征空间造成的多类分类问题。我们将Polyak平均法与RBM相结合,以提高参数收敛速度。我们没有使用传统的特征缩减技术,因为传统技术不能满足用户对更好的特征提取的要求。在本文中,我们提出了一种基于归一化RBM的深度学习方法,称为NRBM。使用RBM的原因是,RBM在训练阶段使用了高阶结构化统计特征。而且低维特征很容易与NRBM学习到的特征区分开。

该模型利用RBM网络的优势,有效地降低了图像的特征维数空间,从而提高了多类分类的准确率。在NRBM的训练阶段,我们在RBM的第一层加入Polyak平均,以获得下一层的归一化参数集。在提出的模型中,我们对每次迭代重复相同的过程,直到最终分类。方程6、7、8是用于参数更新的Polyak平均公式。

在这里插入图片描述
在这里插入图片描述
Polyak平均不仅提高了参数收敛速度,而且由于它只包含两个简单的加法函数,因此不会影响模型的计算训练成本。通过使用平均法消除了每层两个相邻参数之间差值的突然倾斜或下降。由NRBM得到的特征集合被交给最终层进行最终分类。在提出的NRBM模型中,Softmax分类器被认为是最终层。下面的算法2给出了NRBM的逐级伪代码的详细步骤,网络架构如图2所示。在提出的模型中,W使用公式6计算,而W¯n 使用公式7求解。

使用NRBM的图像分类步骤

图像分类是分类的著名应用,其中图像是根据内容和对象进行分类的,它由[35]组成。图像分类是分类领域的著名问题之一。与其他分类方法一样,整个图像分类现象也分几个阶段进行。下面是图像分类的常见步骤。

图像预处理

图像预处理指的是在非常低的抽象级别[36]上同时处理图像的输入和输出的过程。图像预处理的主要目的是增强图像表示,以覆盖不必要的失真,并提高信息特征的质量,以进行高级图像处理。整个图像预处理分为几个步骤进行,首先是图像数据加载,其次是图像调整大小,以便将所有图像固定在一个单一的标准尺寸中。第三步是去除图像中的噪声,第四步是分割,目的是分离前景和背景对象。

在这里插入图片描述

特征提取

在特征提取阶段,将图像分成几段,然后对每一段进行处理,以便将像素转换为它们的相等数值[37]。从这些多维值中,从每个分段中逐一提取重要特征。最后提取出整个图像的所有重要特征,这些特征包含了整个图像的完整表示。提取的特征是特征缩减模块的输入。更好的特征提取对特征缩减模块有积极的影响。

特征缩减

在图像处理的特征降维阶段,将图像数据的特征维度从高维特征空间中降维。特征降维的主要目的是降低处理速度,因为对于分类器来说,处理高量数据是耗时的任务[38]。所提出的模型主要关注有效的特征缩减,最终导致更好的图像分类。

分类

图像分类的最后一个主要阶段是使用分类器对图像数据进行最终分类。在机器学习领域,基于具有已知组关联的观测值或样本的训练数据集,识别一组新观测值适合哪一个组的问题,称为分类[39]。不同类型的分类器被用于分类。在最近的研究中,深度学习技术被大量用于专门用于图像分类。

在这里插入图片描述
图2所示。NRBM内部架构

在这里插入图片描述
在这里插入图片描述

实验结果

我们进行了几个实验来验证所提出的NRBM模型并评估其特征学习能力,这是朝着更好的分类的主要改进。在本研究中,所有的实验都是在windows 10操作系统的Intel core i5 cpu上进行的,内存为8GB。用于开发和测试这些算法的编译器和语言是python3.6。为了快速实现所提出的NRBM方法,使用了高效的数值计算开源库Tensorflow[40]。它允许对CPU和GPU支持进行简单而快速的开发。用于评估所提出模型的数据集是
在这里插入图片描述
图3所示。使用NRBM进行图像分类的流程

基准数据MNIST[41]的五个变体子集。MNIST数据集包含0到9手写数字的70000张图像。每张图像的大小为28x28像素。在MINST中,数字已经居中,每个数字的大小固定在图像内部的特定区域。MNIST的变异子集是基本(small),随机旋转数字(rot),随机噪声背景数字(bg-rand),随机背景数字(bg-img)和旋转和图像背景数字(bg-img-rot)。图4到图8分别是从每个变异子集中随机选择的图像。我们从每个MNIST子集中随机选择了5000张图像。为了验证NRBM的性能,采用了两种不同的测试和训练比例进行实验。在第一阶段的实验中,我们选择50%的数据用于训练,50%用于测试,而在第二阶段,我们将训练数据比例从50%增加到70%,并将测试数据比例从整个数据集的50%减少到30%。

在这些实验中,学习阶段使用反向传播方法。没有进行预处理或预训练。对于提出的NRBM,输入神经元的数量为784。隐层的学习率设置为0.03,在进行不同阈值率的实验后,我们将重构误差的阈值调整为0.3。

在反向传播参数调整后,我们将重构误差阈值降低到0.003。最终层的输出节点数为10,反向传播的精细计数最终设置为500。在本研究中,分类评价性能的标准是混淆矩阵(CM)和接收者操作特征(ROC)曲线。CM和ROC曲线给出了类别级正确分类和错误分类实例的NRBM准确率的详细结果。
为了评估提出的NRBM模型及其分类性能,在网络的最后一层使用了Softmax分类器。图9给出了MINST基本子集的NRBM结果。图9(a)和9(b)表示NRBM基于70:30的训练-测试数据集比例的CM和ROC曲线,而图9©和9(d)表示训练-测试比例为50:50的NRBM。可以很容易地得出结论,基于70:30比的结果是优于50:50的训练-测试比。两种CMs都表明,具有相同模式和相似特征的类别大多被错误分类,例如类别4和类别9,也为5和8。图10表示了基于MINST rot变体子集的NRBM的输出。每个类别的精度类似于MNIST基本子集,但总体精度下降到5%,因为在这个数据集中图像是随机旋转的,结果增加了数据集的复杂性。
图11简要描述了MINST bg-rand变体子集的所提出模型的输出。除了分别被错误分类为类别9和类别7的类别4和类别2之外,每个类别的准确率更好。这是因为它们的特征相当相似。ROC曲线显示,与MNIST basic和rot相比,类别0和1的曲线下面积(AUC)有一个缓慢的速度下降。
类似地,图12给出了MINST bg-img变异体子集的NRBM模型输出。对于70:30的训练-测试比数据,总体精度有所提高,但在水平上,存在一些错误分类,即类别4和类别9被错误分类到类别9和类别7。非常相似的特征是错误分类的原因。即使用肉眼看,手写的4和9看起来也相当相似。ROC图显示,类别1和类别9的AUC低于其他类别。图13为MNIST bg-img-rot数据集上的结果。每个类别的准确率都得到了提高,这在图13(b)和图13(d)的ROC中得到了验证。从分析图9 - 13得出的所有实验来看,NRBM从MNIST基本子集开始直到MNIST随机背景数字的整体分类精度都有逐渐下降的趋势。这种下降是数据集的复杂性和噪声逐渐增加的原因。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
所有算法的计算性能都依赖于硬件、软件和编译器。在我们的研究中,我们使用了第5节中提到的相同的硬件和软件组合。表一中的结果显示了所提出的NRBM模型、深度信念网络(DBN)[42]、门控RBM (GRBM)[43]、标准RBM[44]模型的执行时间对比。前两个数据集在RBM GBM和NRBM之间的整体性能相当接近。在MNIST basic中,RBM和GBM的执行时间性能更好,因为数据相对不复杂,这使得特征提取和特征约简比其他数据集更简单和更快。由于MNIST sub-bg-rand、sub-bg-img和sub-bg-img-rot中的数据更多、噪声更大、更复杂,因此NRBM的执行时间性能比DBN、GBM和标准RBM更好。
B.训练错误率比较
任何AI模型中最关键的部分都在训练阶段。在进行的实验中,按照第5节中提到的方法进行相同的参数调优。从每个数据集中选择5000张随机图像用于训练比较模型。在训练阶段应用反向传播行为。表II给出了NRBM与一些最先进模型的训练错误率对比分析。在总结的训练错误率中,首先DBN在MNIST基本数据集上表现良好;在sub-rot数据集上,当训练-测试数据的比例为70/30时,RBM表现更好,而当训练-测试数据的比例为50/50时,NRBM表现更好。在其余数据集的实验中,RBM和NRBM的表现相对接近

相对而言,但在整体结果上NRBM优于对比模型。

测试错误率比较

进行测试错误率分析的实验如表三所示。分类精度和性能取决于模型的内部架构和用于最终分类的分类器。为了进行公平的实验,我们对所有带有Softmax层的模型使用相同的参数设置并遵循架构进行最终分类。像训练对比分析一样,我们也用两个训练-测试数据比率来测试所有模型。表III中的结果得出结论,DBN对于MNIST基本子集和RBM对于subrot子集的测试误差更低,因为这两个子集的数据集复杂度非常低。虽然RBM的错误率接近NRBM,但仍然在sub-bg- rand、sub-bg-img和bg-img-rot数据集中,所提出的NRBM的性能优于DBN、GBM和RBM。

结论

RBM是深度学习领域最有用的模型之一。本文提出了一种基于Polyak平均法进行训练的NRBM,以改进权值和bais更新参数的函数。这项研究主要有三个贡献。首先利用NRBM进行特征学习,有效降低特征维度;其次,我们在提出的模型的最后一层使用Softmax分类器进行最终分类。最后通过充分的实验进行对比分析,验证了所提出的NRBM的重要性和有效性。由于Polyak平均法由简单的加法组成,RBM中的归一化函数使模型的学习速度更快。

在这里插入图片描述
函数。基于Python的高效计算库命名为Tensorflow,用于实现。实验在5个MNIST变体数据集上进行。总的结果表明,当数据集的复杂性增加时,所提出的模型表现得更好。我们未来的目标是通过在标准RBM中加入更多的优化和归一化方法来推进我们的研究,并将所提出的模型应用于更复杂和更大的数据集。

猜你喜欢

转载自blog.csdn.net/CSDNXXCQ/article/details/130765859
今日推荐