深度学习基础整理

深度学习可以用更多的数据或是更好的算法来提高学习算法的结果。对于某些应用而言，深度学习在大数据集上的表现比其他机器学习（ML）方法都要好。
性能表现方面，深度学习探索了神经网络的概率空间，与其他工具相比，深度学习算法更适合无监督和半监督学习，更适合强特征提取，也更适合于图像识别领域、文本识别领域、语音识别领域等。
为什么深度学习会如此被热衷，因为它不以任何损失函数为特征，也不会被特定公式所限制，这使得该算法对科学家们更为开放，它能以比其他传统机器学习工具更好的方式进行使用和扩展。

是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习的不同在于：1）强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2）明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。

训练样本输入是连续的序列，且序列的长短不一，比如基于时间的序列：一段连续的语音，一段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练
但是 RNN有致命的缺陷，只能知道记忆短暂的信息，对于距离相距很远的信息记忆能力差。比如我们做完型填空时，可能需要整合全文来填某一个句子，比如 I grew up in China….此处省略一万字.....I speak fluent _____ . 如果 RNN 只知道邻近的几个单词，可能它会知道此处需要填写一门语言，但至于应该填什么，就需要找到更远前的信息，直到找到 China 才行。这种需要寻找相距很远信息的情况，实际上非常常见，此时需要LSTM。

是 RNN 的一种特殊形式，它被广泛应用在翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务
是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件

优势：1、神经元之间的连接是属于非全连接的（稀疏连接） 2、同一层中某些神经元之间连接的权重是共享的（即相同的），它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度（对于很难学习的深层结构来说，这是非常重要的），减少了权值的数量
卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性
是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现
卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成
CNN有如下约束：

特征提取（C）：每一个神经元从上一层的局部接受域得到突触输人，因而迫使它提取局部特征。一旦一个特征被提取出来，只要它相对于其他特征的位置被近似地保留下来，它的精确位置就变得没有那么重要了。
特征映射（S）：网络的每一个计算层都是由多个特征映射组成的，每个特征映射都是平面形式的。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。平面中单独的神经元在约束下共享相同的突触权值集，这种结构形式具有如下的有益效果：a.平移不变性。b.自由参数数量的缩减(通过权值共享实现)。
子抽样（供特征映射使用）：每个卷积层后面跟着一个实现局部平均和子抽样的计算层，由此特征映射的分辨率降低。这种操作具有使特征映射的输出对平移和其他形式的变形的敏感度下降的作用。

（Ci----->求和，加权值，加偏置，通过一个Sigmoid函数------>Si）*n----->被光栅化的数据---->输入到传统的神经网络->输出

// coeff 是可训练的权重，sw 、sh 是采样窗口的尺寸，i,j,k是input的维度，以下公式是求卷积的核心思想

sub[i][j/sw][k/sh] += input[i][j][k]*coeff[i];

BP算法存在的问题：

（1）梯度越来越稀疏：从顶层越往下，误差校正信号越来越小；

（2）收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）；

（3）一般，我们只能用有标签的数据来训练：但大部分的数据是没标签的，而大脑可以从没有标签的的数据中学习；