人工智能原理与实践期末知识点总结

人工神经网络具有4个基本特征。(1)非线性。人工神经元处于激活或抑制两种状态,在数学上表现为一种非线性关系。具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储容量。(2)非局限性。一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。(3)非常定性。人工神经网络具有自适应、自组织、自学习能力。(4)非凸性。一个系统的演化方向,在一定条件下将取决于某个特定的状态函数。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性。

机器学习的研究,主要在以下3个方面:(1)研究人类学习的机理人脑思维的过程。(2)研究机器学习的方法。(3)研究如何建立针对具体任务的学习系统。

利用线性回归模型解决实际问题的一般步骤:(1) 根据问题构建一个线性模型,即构建一个函数;(2) 利用已标注的样本数据对模型进行训练,训练过程中使用梯度下降法调整模型参数 β^i 、损失函数评价何时结束;(3) 重复步骤2,直至找到损失函数的最小值;(4) 利用验证集去测试模型的精度或拟合度,评价指标常用均方误差MSE(Mean Squared Error);(5) 如果预测结果不满意,则需改进模型(如加大训练集、改变学习率α等);(6) 回到第2步,再重新训练模型,直至获得满意的模型;(7) 利用未来的自变量xi和满意模型,去计算预测值y,从而解决预测问题。

梯度下降法:沿损失函数梯度下降的方向,寻找损失函数的最小值,得到最优参数的方法。

目的:想找到一组参数w和b,使得损失函数最小。梯度:函数对各参数求偏导后的向量。函数梯度下降方向是函数减小方向学习率(learning rate,lr):当学习率设置的过小时,收敛过程将变得十分缓慢。而当学习率设置的过大时,梯度可能会在最小值附近来回震荡,甚至可能无法收敛。

卷积神经网络是深度学习技术中极具代表的网络结构之一,属于人工神经网络的一种。其应用最成功的领域就是图像处理。在国际标准的ImageNet数据集上,许多成功的模型都是基于卷积神经网络的应用。卷积神经网络相较于传统的图像处理算法的优点在与避免了对图像处理时复杂的前期预处理过程(提取人工特征等),可以直接输入原始图像。

卷积神经网络应用:是深度学习技术中极具代表的网络结构之一,属于人工神经网络的一种。它在许多最新的神经网络模型中都有具体的应用,并被应用于多个实际领域中,其中应用最频繁,也是应用最成功的领域就是图像处理。在国际标准的ImageNet数据集上,许多成功的模型都是基于卷积神经网络的应用。卷积神经网络优点:卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的一个卷积层中,通常包含了若干个特征平面,每个特征平面都是由一些矩形排列的神经元所构成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。卷积核带来的直接好处就是减少了网络中各层之间的连接,同时又降低了过拟合的风险。子采样层也叫作池化,通常有均值子采样和最大值子采样两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型的复杂度,减少了模型的参数。

池化层目的:降维。

优秀的激活函数:非线性:激活函数非线性时,多层神经网络可逼近所有函数,可微性:优化器大多用梯度下降更新参数,单调性:当激活函数是单调的,能保证单层网络的损失函数是凸函数,近似恒等性:f()sx当参数初始化为随机小值时,神经网络更稳定

激活函数输出值的范围:激活函数输出为有限值时,基于梯度的优化方法更稳定激活函数输出为无限值时,建议调小学习率

Relu函数优点:解决了梯度消失问题(在正区间)(2)只需判断输入是否大0,计算速度快(3)收敛速度远快于sigmoid和tanh。缺点:(1)输出非O均值,收敛慢(2)Dead ReU问题:某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。

激活函数对于初学者的建议:首选relu激活函数;学习率设置较小值;输入特征标准化,即让输入特征满足以0为均值,1为标准差的正态分布;初始参数中心化,即让随机生成的参数满足以0为均值,,为标准差的正态分布。

Skip-gram算法就是在给出目标单词(中心单词)的情况下,预测它的上下文单词(除中心单词外窗口内的其他单词,这里的窗口(skip_window)大小是2,也就是左右各两个单词)

递归神经网络的概念递归神经网络在网络中引入了循环递归的概念,它使得信号从一个神经元传递到另一个神经元并不会立刻消失,而是能够继续保持存活状态,这也是递归神经网络的名称由来。它与其他神经网络的最大不同点在于具有了暂存记忆的功能,它可以将过去输入的内容以及这些内容所产生的影响进行量化,并与当前输入的内容一起应用到网络模型中去参与训练,这就解决了一些前馈神经网络和卷积神经网络对于上下文有关的场景处理具有局限性的短板

MTCNN算法是一种基于深度学习的人脸检测和人脸对齐方法,它可以同时完成人脸检测和人脸对齐的任务,相比于传统的算法,它的性能更好,检测速度更快。

MTCNN算法包含三个子网络:Proposal Network(P-Net)、Refine Network(R-Net)、Output Network(O-Net),这三个网络对人脸的处理依次从粗到细。

在使用这三个子网络之前,需要使用图像金字塔将原始图像缩放到不同的尺度,然后将不同尺度的图像送入这三个子网络中进行训练,目的是为了可以检测到不同大小的人脸,从而实现多尺度目标检测。

P-Net的主要目的是为了生成一些候选框,我们通过使用P-Net网络,对图像金字塔图像上不同尺度下的图像的每一个12×12区域都做一个人脸检测(实际上在使用卷积网络实现时,一般会把一张h×w的图像送入P-Net中,最终得到的特征图每一点都对应着一个大小为12×12的感受野,但是并没有遍历全一张图像每一个12×12的图像)。

P-Net的输入是一个12×12×3的RGB图像,在训练的时候,该网络要判断这个12×12的图像中是否存在人脸,并且给出人脸框的回归和人脸关键点定位;在测试的时候输出只有N个边界框的4个坐标信息和score,当然这4个坐标信息已经使用网络的人脸框回归进行校正过了,score可以看做是分类的输出(即人脸的概率):

由于P-Net的检测时比较粗略的,所以接下来使用R-Net进一步优化。R-Net和P-Net类似,不过这一步的输入是前面P-Net生成的边界框,不管实际边界框的大小,在输入R-Net之前,都需要缩放到24×24×3。网络的输出和P-Net是一样的。这一步的目的主要是为了去除大量的非人脸框。

进一步将R-Net的所得到的区域缩放到48×48×3,输入到最后的O-Net,O-Net的结构与P-Net类似,只不过在测试输出的时候多了关键点位置的输出。输入大小为48×48×3的图像,输出包含P个边界框的坐标信息,score以及关键点位置。

从P-Net到R-Net,再到最后的O-Net,网络输入的图像越来越大,卷积层的通道数越来越多,网络的深度也越来越深,因此识别人脸的准确率应该也是越来越高的。同时P-Net网络的运行速度越快,R-Net次之、O-Net运行速度最慢。之所以使用三个网络,是因为一开始如果直接对图像使用O-Net网络,速度会非常慢。实际上P-Net先做了一层过滤,将过滤后的结果再交给R-Net进行过滤,最后将过滤后的结果交给效果最好但是速度最慢的O-Net进行识别。这样在每一步都提前减少了需要判别的数量,有效地降低了计算的时间。

困难样本挖掘在每个小批量中,我们对所有样本在正向传播中计算的损失进行排序,并选择前70%的样本作为困难样本。然后我们只计算反向传播中这些困难样本的梯度。这意味着我们忽略了简单的样本,这些样本在训练期间对增强检测器的帮助较小。实验表明,该策略在无需人工采样的情况下,可以获得更好的性能。

损失函数用于描述预测值与真实值差距的函数

梯度下降法沿损失函数下降的方向,寻求损失函数最小值的方法学习率

描述调整损失函数下降幅度,学习率在梯度下降法中是会变化的,越接近梯度函数最小值,学习率越小

激活函数防止模型为线性模型,提高模型表达力

卷积操作参数提取操作,主要用于图像处理

卷积操作重要参数:卷积核(通常是一个正方形),stride(每次卷积核沿横向和纵向滑动的距离)

池化操作类似与卷积操作最大池化(max pooling):找到卷积核内最大值平均池化(mean pooling):找到卷积核内平均值困难样本挖掘找到损失函数前70%的样本进行损失函数的调整,能有有效增强模型训练速度,获得更好性能

转载请标明出处,and分享一波干知识,打印7号字间隔固定值7磅,有意想不到的成果哦,需要的给点个关注

猜你喜欢

转载自blog.csdn.net/qq_56437391/article/details/125404432
今日推荐