关于在RCNN和SPPNet中分类器采用SVM而不是softmax的解释。

第一我们分析的理由是cnn是需要固定的尺寸的训练样本，SPPNet是可以将任意大小的图像池化生成固定尺寸的图像形式，同比cnn在相同条件下训练耗时快24-102倍左右。理论上的卷积层是不需要规定的图像尺寸，全链接层需要固定的输入。因此将spatial pyramid pooling放在conv layers层之后，关于图像的crop边缘检测和图像的warp几何变化主要是空间坐标变化和空间坐标赋值采用的是防射变化，主要是对像素矩阵进行最邻近插值法插值、双线性插值法、双三次插值法处理。
防射变换第一种是forward mapping、第二种是inverse mapping（backward mapping），forward warp哦那个在变换过程中容易出现空洞和像素的重叠。相关实验中可以使用多种形式的变换函数，防射变化需要变化矩阵充当函数进行求解，文献中使用的是单应矩阵homography。在原图中提取四个特征点坐标，首先让其中的三个点不共线这样就形成一个面同时需要对目标图像的四个点进行标注，这样就是通过8个特征点求解出变换矩阵。
对比网络训练流程
image-crop/warp-conv layers-fc layers-output
image-conv layers-spatial pyramid pooling-fc layers-output
![](https://img-blog.csdn.net/20171215211723456?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveXVueGluYW4=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
分类器问题是对特征的一种处理，这种处理的办法决定着网络的速度，非线性的计算复杂度比线性高，这样就会出现时空差，对于在同一数域的问题采用线性的估计办法收敛速度更快，而识别这个sppNet只是对图像采取edgeboxes的proposal。系统处理的耗时比为0.5秒。RCNN是对每个warp进行区域特征提取，将池化用spp取代好处就是输出向量为KM（K=#filters、M=#bins）设置为全链接层。便于任意的像素输入（这个就和中科院不规则神经网络一样的思路：其实就是卷积和不规则不是3*3或5*5这个经验参数）。
object detection上RCNN重复卷积的特征区域，spp是整体扫描一次。然后将其特征区域池化为一个固定的特征表示。
检测算法也是不同：spp使用金字塔的四层结构用ss生产2k的output区域进行卷积，这样以SVM全链接的ZF-5就相比RCNN的mAP效率高数倍。关键点的共享受卷积计算目前都是基于实验的，由于针对超越目前所知的特征分布的空间的特征（涉及分数阶计算的混沌和分形计算）没用任何可用的方案依据。
记住sigmoid和softmax是两个函数

$f(x)=\frac{L}{1+e^{-k(x-x_{0})}}$
$\sigma (z)_{j}=\frac{e^zj}{\sum{_{k=1}^{k}e^zk}}$
http://cs231n.github.io/linear-classify/ 课程里面有相关介绍，神经网络的鼻组应该和这个人日本福岛邦彦的研究有千丝万缕关系、2006年geoffrey EVerest Hinton是应用先驱。

关于在RCNN和SPPNet中分类器采用SVM而不是softmax的解释。

猜你喜欢