从企业实操的角度谈深度学习（图像方向）的底层逻辑之概念普及

假作真时真亦假，无为有处有还无。
生意路，人生路
科技的本质本应该是这五个字：求实和求是

我时常在想，做人工智能的科技公司门槛到底有多低。理论界不能实操，实操界没有理论。茫茫多的论文，茫茫多的概念被各种科技公司宣传。企业在追求最大化利益的同时，是否真的让务实成为了一文不值的东西？？？？？

《从企业实操的角度谈深度学习（图像方向）的底层逻辑》是我的一个系列随笔，今天说说深度学习中的一些基本概念，无论是深度学习还是人工智能，都是非常实验性的领域，我们在书上，在学术论文上看到的理论，都可能被推翻，所以今天分享的都是现在这个阶段人类的共识。

（一）几个数据的概念和几个方差的概念

1. MINIST 数据集

收集了很多人手写的1、2、3、4、5、6、7、8、9；然后我们给计算机输入了一个数字，让计算机理解这是什么，这就是机器学习，人工智能领域最入门的数据分类问题。

2. CIFAR10 数据集

对于下图，有 10 类物体，其中有一些物体比较相似，有一些不太容易区分的类别，比如鹿和马比较像，猫和狗比较像等等有一些不太容易区分的类别在，一共有 10 类。

在这里插入图片描述

3. ImageNet 数据集

下面图片是个更复杂的分类问题
在这里插入图片描述

4.类内方差（intra-class variance）和类间方差（inter-class variance）

上面的三个数据集，从计算机识别上面里面任何一张图片是什么的角度看，我们怎样辨别这些数据集的难易度呢？
比如像 MINIST 这个手写数字的数据集，我们为什么说比较简单呢？比如说 1 ，写的有歪的有扭的，但是它都是 1，其他数字也都是一样的；但像CIFAR10 这个数据集，里面的猫，猫有不同的角度，不同的品种，不同的背景，就比在黑色背景上写一个数字难辨别的多。

一般认为，同一个类别，同一类之内的差别越大，比如猫和猫，问题就越难，这是类内方差；比如猫与房子之间的辨别，就是类间方差。

（二）深度学习凭什么能在企业中应用

jacky (朱元禄) 总结凭的就是数据驱动

先说深度学习解决问题的大致路径：

计算机做了这样一个事情：把一些像素映射成一个类别的标签，我们要找到一个拟合数据的函数，这样的过程就是深度学习的过程。

类似于深度学习的分类问题，计算机理论其实已经有几十年了，最早的时候，人们是基于一些手动的规则，比如说：一个人身高高于1.75米，体重大于100斤，那我们就认为上述的描述是一个男人，类似这样手动的规则；但是现在，一些问题越来越复杂，利用人工去编写规则的方法已经没有办法来找到这样的函数，因为这样的函数已经太复杂了，现在主流的人工智能的方式就是数据驱动，数据驱动的意识就是说我让机器自己从数据中学习，从数据中发现规律，我们可以给计算机上百万张的图片，让它来去训练，我们希望计算机自己从数据中拟合出我们想要的函数来解决我们现实社会中的分类问题。

（三）深度学习的基本方法 — 分类器

分类器的一个最基本的架构，我们输入一个张二狗，想看他是不是一个优质的单身狗：

我们第1步就是获得这个输入就是张二狗；
第2步是个非常重要的步骤就是特征提取，我们不管像图像也好，张二狗也好，最后还是要做判断，我们提取了张二狗的三个特征，一个是他是不是高，一个是他是不是帅，一个是他是不是富。我们把这个过程叫做特征提取。如果我们把高、帅、富这三个特征放在一起，起个名字叫特征向量。我们找到这个特征的过程就叫做特征工程。

上面的例子没有用到数据驱动的方法，是手动设定的方法，但是我们也可以更好的看到数据提取和根据特征做出判别这样一个过程。

判断一个张二狗我们并不需要深度学习这样一个手段，可我们为什么在图像的分类上用到机器学习，甚至是深度学习这样的工作呢？就是因为图片分类的本质难点：特征提取是一个非常非常困难的工作。有一些问题有比较明确的特征，但是图像特征有一个难点就是它的特征非常难以设计。

机器视觉发展了几十年，传统上不基于用机器学习或者深度学习的方法，通过手工设计，也有很多特征提取的方法：如HOG，SIFT，SURF，取得了一定的成果，但是瓶颈也很明显，就是面对更复杂问题的时候，是无能为力的。

深度学习最关键的牛X之处，在于能够进行特征学习，自行根据训练数据学习出特征。特征找的好不好决定了分类器的上限，而分类方法，不管是神经网络也好，或者是传统的随机森林这样的方法也好，只是去接近这样的上限。

朱元禄博客专家

发布了101 篇原创文章 · 获赞 136 · 访问量 16万+

私信关注