1 想说特征提取

无论是人脸识别还是目标检测，最后都是分类问题，喂给分类器的就是特征提取网络提取的特征。现在很多流行的特征提取网络，从最简单lenet，alexnet 到vgg等，再到inception等，再到resnet等，再到mobilenet等。他的这条线的变化趋势是，从控制全链接出现过拟合，然后是加深网络，识别（变密）小的目标和避免加深网络出现过拟合，轻量化网络和不受输入图片大小限制。只要掌握了网络的含义结构就行，这部分的重点在于inception系列和mobilenet系弄懂了就行。其中NIN结构和FCN在和多模型中有应用，来改善元的有模型。打个比方，如果想要模型识别小目标，就可以模仿inception中的NIN结构。如果想接受不受尺寸影响的图片，就是可最后的fc换成cnn。移植到移动设备，除了tensorflow lite外还要考虑的就是计算量，当然就会想到卷积分离等手段来改善网络。

别去考虑自己创造特征网络，真的很难，很非经历。需要一层一层的调处来。在工作中用到的修改网络，往往是做特征迁移。一个在大数据训练收敛很好的特征网络，通过凝结前面层，剪掉最后的层，并作训练来做改动。当然，压缩模型是可行的。最简单的就是蒸馏法。他的很好训练。用收敛好的权重值作为初始化，然后再训练，很容易收敛。“大”厂考虑的就是这两点。

有人会说，说了办提uan还是“练丹”？下面我就用嘴给你造个模型。cnn网络，前面几层使用来提取边缘体征，并且同过pool来去掉无关信息（目标意外的图像都是噪音，图像金字塔向上采样，就是降噪; 图像算法中，高通滤波是保留图像中边缘信息; maxpool也是有保留边缘信息的作用）。后面一些层就是提取纹理特征（低通滤波，平均池化等等）。在最后用fc或者cnn进行汇总特征，喂给分类器组合。

2 分类器

大间算距离，人，车，树，猫，狗等这都是大间，算距离，欧式距离之类的。

小间算角度，张三，李四，王二，麻子等是小间，算的是余弦距离。

19年11月29日

模型的框

我不知道这么称呼对不对，不是tensorflow，mxnet之类的变成框架，而是yolo，rcnn，unet之类的网络结构。

上面我已经说了特征提取。目标从自然环境中定位出来的，然后提取特征，分类。而定位用什么方法呢？你去百度学术或者谷歌学术查找ssd的论文，会蹦出来对他的扩展。ssd的作者论文中用的是vgg和mobilenet吧，我忘了。别人对他的扩展是什么？用别的特征提取换掉vgg，或者在vgg上加上NIN的机构，在或者加深，或者变宽。这种扩展非常多（这也就是0到1是不容易的，1到10是容易的）。那么这些扩展哪个是最好的呢？这句话就外行了，没有最好的。或者说，在某个特定数据集上是最好的（数据的相关性，数据的多少，数据的品质等因素），另一个数据上很可能就不好了。扩展性论文有什么用呢？修改网络的时候的参考，要么直接用，或者在他们基础上微加结构。别去管那些调参数的。

最终模型要上线的。工业级论文是非常好的。在大数据面前，轻量化的模型表现不错。

对深度学习的未来

我感觉并不乐观，这个东西说实话，就那些东西，谁都可以做，并不太难。工作越来越不好找。所以建议转图像算法吧。深度学习也可以做图像算法，可以把深度学习理解成球最优解的过程，确定算法中的某些认为选的因子。

未来方向：

速度，轻量化

服务器段部署，并不是用个文化ile就可以当作服务器端用的。tensorflow-servering，tensorRT，NCNN。

移动端部署，tensorflow-lite

3 目标检测

~~人脸对齐还是语义分割在或者识别文字框都是目标检测。分为角，关键点，中心，淹摸，框。最快的是中心。~~

未完待虚...

ChengLaun

发布了118 篇原创文章 · 获赞 23 · 访问量 7万+

私信关注

关于图像深度学习的个人理解1

1 想说特征提取

2 分类器

模型的框

对深度学习的未来

3 目标检测

猜你喜欢