关于图像深度学习的个人理解1

19年11月11日

关于图像深度学习的个人理解,欢迎大家来评论交流。

首先说下,我最烦人别人说深度学习是"炼丹"。不深入学习别妄下结论,人云亦云,要自己去多学,多看。

1 想说特征提取

无论是人脸识别还是目标检测,最后都是分类问题,喂给分类器的就是特征提取网络提取的特征。现在很多流行的特征提取网络,从最简单lenet,alexnet 到vgg等,再到inception等,再到resnet等,再到mobilenet等。他的这条线的变化趋势是,从控制全链接出现过拟合,然后是加深网络,识别(变密)小的目标和避免加深网络出现过拟合,轻量化网络和不受输入图片大小限制。只要掌握了网络的含义结构就行,这部分的重点在于inception系列和mobilenet系弄懂了就行。其中NIN结构和FCN在和多模型中有应用,来改善元的有模型。打个比方,如果想要模型识别小目标,就可以模仿inception中的NIN结构。如果想接受不受尺寸影响的图片,就是可最后的fc换成cnn。移植到移动设备,除了tensorflow lite外还要考虑的就是计算量,当然就会想到卷积分离等手段来改善网络。

别去考虑自己创造特征网络,真的很难,很非经历。需要一层一层的调处来。在工作中用到的修改网络,往往是做特征迁移。一个在大数据训练收敛很好的特征网络,通过凝结前面层,剪掉最后的层,并作训练来做改动。当然,压缩模型是可行的。最简单的就是蒸馏法。他的很好训练。用收敛好的权重值作为初始化,然后再训练,很容易收敛。“大”厂考虑的就是这两点。

有人会说,说了办提uan还是“练丹”?下面我就用嘴给你造个模型。cnn网络,前面几层使用来提取边缘体征,并且同过pool来去掉无关信息(目标意外的图像都是噪音,图像金字塔向上采样,就是降噪; 图像算法中,高通滤波是保留图像中边缘信息; maxpool也是有保留边缘信息的作用 )。后面一些层就是提取纹理特征(低通滤波,平均池化等等)。在最后用fc或者cnn进行汇总特征,喂给分类器组合。

2 分类器

大间算距离,人,车,树,猫,狗等这都是大间,算距离,欧式距离之类的。

小间算角度,张三,李四,王二,麻子等是小间,算的是余弦距离。


19年11月29日

模型的框

我不知道这么称呼对不对,不是tensorflow,mxnet之类的变成框架,而是yolo,rcnn,unet之类的网络结构。

上面我已经说了特征提取。目标从自然环境中定位出来的,然后提取特征,分类。而定位用什么方法呢?你去百度学术或者谷歌学术查找ssd的论文,会蹦出来对他的扩展。ssd的作者论文中用的是vgg和mobilenet吧,我忘了。别人对他的扩展是什么?用别的特征提取换掉vgg,或者在vgg上加上NIN的机构,在或者加深,或者变宽。这种扩展非常多(这也就是0到1是不容易的,1到10是容易的)。那么这些扩展哪个是最好的呢?这句话就外行了,没有最好的。或者说,在某个特定数据集上是最好的(数据的相关性,数据的多少,数据的品质等因素),另一个数据上很可能就不好了。扩展性论文有什么用呢?修改网络的时候的参考,要么直接用,或者在他们基础上微加结构。别去管那些调参数的。

最终模型要上线的。工业级论文是非常好的。在大数据面前,轻量化的模型表现不错。

对深度学习的未来

我感觉并不乐观,这个东西说实话,就那些东西,谁都可以做,并不太难。工作越来越不好找。所以建议转图像算法吧。深度学习也可以做图像算法,可以把深度学习理解成球最优解的过程,确定算法中的某些认为选的因子。

未来方向:

速度,轻量化

服务器段部署,并不是用个文化ile就可以当作服务器端用的。tensorflow-servering,tensorRT,NCNN。

移动端部署,tensorflow-lite

 

3 目标检测

人脸对齐还是语义分割在或者识别文字框都是目标检测。分为角,关键点,中心,淹摸,框。最快的是中心。

未完待虚...

发布了118 篇原创文章 · 获赞 23 · 访问量 7万+

猜你喜欢

转载自blog.csdn.net/weixin_39875161/article/details/103302530