ijmlc期刊扩展内容

我将尽力向IJMLC期刊推荐您的研讨会论文的扩展版本。根据期刊编辑的要求，作者应为期刊提交提供三个文件，即研讨会公告的原始文件，期刊提交的扩展版本（至少30％的新内容，你也应该尽力重写）摘要，介绍，相关工作等，以避免这两个版本之间过多的重叠。），以及差异的总结。请在不迟于2019年3月20日之前将这三个文件发送给我（[email protected]）。（如果您需要更多时间进行修订，请尽快与我联系。）

1.级联网络（平面图立体图都要改，在原图上改）3层级联

在特征融合章中添加

识别不同尺寸的物体是分类问题的基本挑战。对于CNN，不同的深度特征对应于不同级别的语义特征。通常，深层网络提取的特征包含更多高级语义信息，而浅层网络提取的特征包含更多详细特征。随着网络深度的增加，特征图变得越来越抽象，因此所包含的特征的信息越来越少，导致小物体的识别效果降低。该问题的传统解决方案是使用图像金字塔，即多尺度训练。然而，该方法是计算密集型的，并且几乎所有当前的方法都使用该方法，这些方法在分类和目标检测方面取得了良好的效果。因此，如何通过改善网络结构来增强对多尺度对象的识别是一个新的挑战。

传统的VGG16模型只有一条特征提取路径。在Conv5-3之前没有很好地利用特征层，因此小物体的识别能力不足。这些的原因是池化过滤器过滤了大部分信息。为了充分利用多层卷积特征并提高小物体的识别能力，我们整合了Conv4-3和Conv3-3的混合特征。改进的网络结构如图\ ref {fig3}所示。
concat图层拼接了要素图并保持要素图的大小不变，因此我们有更多的要素表示。
在每个卷积层之后添加批量标准化（BN）和标度。这种操作可以提高训练速度，提高分类效果，这已经在{Huang2016Densely}中得到证实。
通过简单的网络连接变化，在不显着增加原始模型的计算量的情况下提高了识别小物体的性能。

用级联网络代替11*11的ROI池化，大幅度降低维度

本文受到了文章的启发，利用浅层神经网络代替11*11的ROI池化，大幅度降低维度同时，保留小目标的底层图像特征。

在深层网络中，从conv1-1到pool4的参数与VGG16相同，本文把conv5-1到conv5-3三个层都改进为填充系数为2，内核大小为3×3，步长为1，扩张系数为2的扩张卷积层。扩张卷积[10]是图像分割领域的常用方法，可以在不改变特征图大小的情况下增大感受野，即包含更多的全局信息，其实现原理如图2所示，其中，图(a)是普通的卷积特征图，图(b)是扩张系数为2的扩张卷积特征图。对于7×7的特征区域，其实际卷积内核大小为3x3，空洞值为1，即除9个黑点外其它点权重为0。虽然相对于普通的卷积特征图内核大小没有变化，但其的感受野已经增大到了7x7，这让每个卷积输出都包含了更多的全局信息。

在浅层网络中，不再需要捕获图像的高层语义特征，而是希望获得底层图像特征，因此不需要太深的网络，即不需要使用大量的卷积层。为了让并联结构获得更优的效果，本文使用跨层连接的方法共享conv1-1与conv1-2的参数，从conv2-1开始，只使用4个卷积层，每个层都有24个内核大小为5×5的过滤器。为使的深层网络和浅层网络拥有相同的空间分辨率，本文还在浅层网络中每个卷积层后都设计内核大小为4×4，步长为2的平均池化层，此结构中使用平均池化可以确保不会因为最大池化而损失过多的图像信息。

2.4个降维器（插入网络结构设计一章）

全连接层能将提取的图像特征进行整合，在整个神经网络中有着类似分类器的作用，由于全连接层容易造成参数冗余，许多经典的方法都选择使用其它类型的层代替全连接层，例如全卷积网络使用卷积层代替全连接层，ResNet[12]和GoogLeNet[13]用全局平均池化层代替全连接层。由于本文借鉴了Fast R-CNN模型的分类回归层，所以不能完全去除全连接层，因此设计了一个特征降维器代替VGG16中的一个全连接层以减少参数冗余。

特征降维器由感兴趣区池化层和单核卷积层组成。感兴趣区池化层可以在RPN后输出固定大小的特征图，在本文中起压缩特征图的作用。单核卷积层为内核大小为1×1且步长为1的卷积层，在感兴趣区池化层后使用不但可以使结构更紧凑，还能对特征图进行降维。通过使用降维器可将特征映射大小固定为7×7，并将维度从536降为512后再征送入全连接层。分别使用4个降维度器，对4个池化结构进行不同比例的降维。降维使用的卷积层为内核大小为1×1且步长为1的卷积层，我们分别对4个池化后的特征图进行降维，对于7*7的特征图并将维度从536降为512后再征送入全连接层，对于11*11的特征图我们将维度降为128，3*11的特征图我们将维度降为256，11*3的特征图我们将维度降为256。

*对抗形变网络3.考虑

4.联合训练的语言描述

5.锚的解释

RPN会对输入的图片进行扩张，最大的尺寸为1000×600，而RPN的12种锚中最大尺寸为1024×512，因为1024超出了图片规定的最大尺寸，所以RPN会裁剪超出边界部分，则锚的最大尺寸为1000×512，该种锚的尺寸足以覆盖图片的大目标。同理，256和128两种尺寸可以处理中等大小的目标。因为每个锚都为单标签检测，所以大目标会因为特征明显而覆盖小目标，此时锚的最小尺度64则能在检测小目标时解决该问题，从而增加对小物体的检测准确率。

ijmlc期刊扩展内容

猜你喜欢