NLP paper精读(一)——Deep Learning


本论文是人工智能领域三大牛人在2015年Nature上发表的文章,掀起了人工智能的热潮,进入了全名DL的时代,同时这三位作者也在2019年获得了图灵奖。
本文的内容是按照论文的行文,摘取最重要的部分做相应的记录。

前言

Deep Learning 可以让多层计算模型去学习和拟合高层的抽象表示,同时完成复杂的计算与表达。

几十年来,构建模式识别和机器学习的系统,需要大量的专业知识和性能相当好的引擎来实现,处理大量过的特征工程。而深度学习则不需要做这种特征提取器的工作。

深度学习是一种表示学习的方法。
具体方法是,将多层简单非线性的模块组合成为能够表达高层和抽象问题的多层表达。
如果有足够多的转换组合,任何复杂函数都可以进行表示与学习。

深度学习善于在高维度的数据中发现复杂的结构,被广泛应用与科学、商业、政府等领域。
深度学习已经在许多领域中取得了成功。

在NLP领域中,主题分类、情感分析、自动问答和机器翻译也取得了相当的发展。

监督学习

监督学习就是有标签的学习,有标注的训练样本数据进行学习,然后采用学习得到的模型去预测其他样本。

目标函数可以被看成权值在高维空间上的多变地形。负梯度向量方向“下山”最快,能更接近于误差最小值的点。

SGD随机梯度下降,被称为随机是因为小的样本集对于全体样本的平均梯度会有噪声估计,这个简单的过程会找到一组不错的权值。

训练结束后,测试系统的表现情况会使用不同的样本数据(测试集)。用于测试模型的泛化能力——对于未训练过的样本的识别能力。

传统的方法需要手工设计较好的特征提取器,这需要相当大的特征工程量和领域专业知识。

反向传播算法

反向传播算法的本质是链式求导的法则。
计算结果前向运算,层层计算得到最后的结果。
根据结果计算误差,求导(梯度)反向传播至每一层,更新参数。
循环往复则网络学习成功,获得最终的模型。

反向传播算法的核心思想是:目标函数对于某层输入的导数(或者梯度)可以通过向后传播对该层输出(或者下一层输入)的导数求得。

现在常用的非线性变化是ReLU函数,会让一个NN网络学习更快。

卷积神经网络

CNN的优点:

  1. 减少大量的参数
  2. 提高效率
  3. 降低计算复杂度

数据的表示形态有多种:
1D:表示序列信号——语言
2D:表示图像或者声音
3D:表示视频或者有声图像

卷积神经网络的4个关键想法:

  1. 局部链接
  2. 权值共享
  3. 池化
  4. 多网络层

在一个网络中,一个特征如的全部单元使用相同的过滤器,不同层的特征图使用不同的过滤器。原因有2点:

  1. 数组数据中(比如图像)一个值附近的值是高度相关的。
  2. 不同位置的局部统计特征不太相关

池化层的作用是在语义上把相似的特征合并起来,这是因为形成一个主题的特征,其相对位置不太一样。
当数据在前一层中的位置有变化的时候,池化操作让这些特征对这些变化更具鲁棒性。

使用深度卷积神经网络进行图像理解

深度卷积神经网络被用在上百万张图片数据集中,该数据集包含了1000种不同的类别。有效的利用了GPU运算资源、ReLU激活函数和dropout正则化技术。在2012年的ImageNet大赛中取得很好的效果

分布式表示和语言处理

分布式特征的的2个优势:

  1. 能够泛化适应新学习到的特征值的组合。
  2. 深度网络种组合表示层带来了另一个指数级别的潜能。

神经语言模型关联词的语义级别的特征,在空间中语义相近的词,位置彼此相近。

循环神经网络

RNN 展开可以将其视为一个所有层共享同样权值的深度前馈神经网络。
虽然它的目标是学习长期的依赖性,但实验表明学习并长期保存信息是很难达到的。

为了解决以上的问题,产生了增大网络存储的想法。
LSTM被提出,称作记忆细胞的特殊单元,类似于累加器和门控神经单元。

深度学习的未来

无监督学习是未来研究的重点,因为无监督学习在与人类与动物的学习过程中占主要地位。
在图像领域,深度学习和增强学习的结合正处于初期。
在未来,NLP是影响深度学习的重要领域。
最终的AI取得巨大进步的是来自于与结合了复杂推理表示学习的系统。

Reference

[1]《Deep Learning》Nature期刊

猜你喜欢

转载自blog.csdn.net/qq_19672707/article/details/91358941