神经网络基本概念

在看神经网络方面的文章时,文中有很多专业名词,在网上看了大家的理解后记录于此。


AP(average precision)平均正确率

一种衡量结果的标准。


FPN(feature pyramid networks)特征金字塔网络

原来多数的object detection算法都是只采用顶层特征做预测,但我们知道低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,FPN不一样的地方在于预测是在不同特征层独立进行的。


ResNet(residual network)残差网络

为解决“随着网络加深,梯度消失的现象越来越明显,准确率下降”的问题。

Resnet提供了两种选择方式,也就是identity mapping和residual mapping,如果网络已经到达最优,继续加深网络,residual mapping将被push为0,只剩下identity mapping,这样理论上网络一直处于最优状态了,网络的性能也就不会随着深度增加而降低了。


分割误差

分割误差为mask rcnn中新加的。mask rcnn中的损失函数为分类误差+检测误差+分割误差。

对于每一个m*m大小的ROI区域,mask分支有一个K*m*m维的输出,K是指所有的类别(例如PASCAL VOC一共20个类别,加上背景,一共21个类别,K=21)。对于每一个像素,都是用sigmod函数求二值交叉熵(即对每个像素都进行逻辑回归),得到平均的二值交叉熵误差Lmask。对于每一个ROI,如果检测得到ROI属于哪一个分类(分类是由faster rcnn的classification确定的),就只使用哪一个分支的交叉熵误差作为误差值进行计算。也就是一个ROI区域中K*m^2的输出,真正有用的只是某个类别的m^2的输出。(举例说明:分类有3类(猫,狗,人),检测得到当前ROI属于“人”这一类,那么所使用的Lmask为“人”这一分支的mask。)这样的定义使得我们的网络不需要去区分每一个像素属于哪一类,只需要去区别在这个类当中的不同分别小类。


RPN(Region Proposal Network)区域推荐网络

提取候选目标边界框


FCN(Fully Convolutional Networks)全卷积网络

FCN对图像进行像素级的分类,从而解决了语义级别的图像分割(semantic segmentation)问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax输出)不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。


Region Proposal:

是一类传统的区域提取方法,可以看作不同宽高的滑动窗口,通过窗口滑动获得潜在的目标图像,关于Proposal大家可以看下SelectiveSearch,一般Candidate选项为2k个即可


ROIAlign:

在MASK RCNN中用来替代ROI Pooling层,将候选区域大小归一化,采用双线性插值法。映射后点的坐标不一定是整数,如(1.2,3.4),这时用双线性插值法来计算该点的像素值为:


这里,i=1,j=3,u=0.2,v=0.4。是取该点周围四个点的加权和。


图像掩码操作:

是指通过掩码核算子重新计算图像中各个像素的值,掩码核算子刻画邻域像素点对新像素值的影响程度,同时根据掩码算子中权重因子对像素点进行加权平均。图像掩码操作常用于图像平滑、边缘检测、特征分析等区域。


猜你喜欢

转载自blog.csdn.net/qq_38214193/article/details/79915378