A Neural Probabilistic Language Model阅读笔记 - 代码天地

A Neural Probabilistic Language Model阅读笔记

其他 2020-10-03 19:13:46 阅读次数: 0

在这里插入图片描述
上图有点错误，最左边的是输入层，第二层是投影层，第三层是隐藏层，第四层是输出层。

Bengio 用了一个三层的神经网络来构建语言模型，同样也是 n-gram 模型。如下图所示：
在这里插入图片描述
通过前 $n - 1$ 个词即 $w_{t-n+1},\dots,w_{t-2},w_{t-1}$ 来预测第 $n$ 个词即 $w_t$ 。其中 $C (w)$ 表示词 $w$ 对应的词向量(其中词向量的维度为m)，而 $C$ 表示的是所有词的词向量矩阵，则它的维度是 $\times m$ 。

网络的第一层（输入层）是将 $C(w_{t-n+1}),\dots,C(w_{t-2}),C(w_{t-1})$ 拼接到一起，则形成的向量为x，维度为 $(n - 1) m$ 。

网络的第二层（隐藏层）就如同普通的神经网络，直接使用 $d + H x$ 计算得到。 $d$ 是一个偏置项。在此之后，使用tanh作为激活函数。

网络的第三层（输出层）一共有 $∣ V ∣$ 个节点，每个节点 $y_i$ 表示下一个词为 i的未归一化 log 概率。最后使用 softmax 激活函数将输出值 $y$ 归一化成概率。最终，y的计算公式为：
$y = b + W x + U t a n h (d + H x)$

式子中的 U( $\times h$ 的矩阵)是隐藏层到输出层的参数，整个模型的多数计算集中在U和隐藏层的矩阵乘法中。后文的提到的 3 个工作，都有对这一环节的简化，提升计算的速度。 $H$ 为 $\times (n-1)m$ 的矩阵。

式子中还有一个矩阵W(维度为 $\times (n-1)m$ )，这个矩阵包含了从输入层到输出层的直连边。直连边就是从输入层直接到输出层的一个线性变换，好像也是神经网络中的一种常用技巧（没有仔细考察过）。如果不需要直连边的话，将W置为 0 就可以了。在最后的实验中，Bengio 发现直连边虽然不能提升模型效果，但是可以少一半的迭代次数。同时他也猜想如果没有直连边，可能可以生成更好的词向量。

https://blog.csdn.net/weixin_43178406/article/details/101671342
http://techblog.youdao.com/?p=915
http://licstar.net/archives/328
https://www.bilibili.com/video/BV1Lb411p7FD?p=2
https://arxiv.org/pdf/1301.3781.pdf
https://blog.csdn.net/maqunfi/article/details/84455434

猜你喜欢

转载自blog.csdn.net/herosunly/article/details/88969491

A Neural Probabilistic Language Model ------阅读笔记

A Neural Probabilistic Language Model阅读笔记

A Neural Probabilistic Language Model

【论文阅读】A Neural Probabilistic Language Model

A Neural Probabilistic Language Model 论文阅读及实战

论文笔记：A Neural Probabilistic Language Model

词向量-----《A Neural Probabilistic Language Model》

MNLM：Word Embedding开山之作 A Neural Probabilistic Language Model

论文阅读：A Neural Probabilistic Language Model 一种神经概率语言模型

A Neural Probabilistic Language Model_论文阅读及代码复现pytorch版

【论文翻译未完成】翻给自己看的 A Neural Probabilistic Language Model

NLP+深度学习：paper(1) Bengio: A Neural Probabilistic Language Model， word2vec蓝本NNLM方法

Neural Network Language Model

自然语言处理: 第三章NPLM(Neural Probabilistic Language Mode)

[NLP论文阅读]A Neural Knowledge Language Model（一）

A CONVERSATIONAL NEURAL LANGUAGE MODEL FOR SPEECH RECOGNITION IN DIGITAL ASSISTANTS文献阅读笔记

【论文阅读】Scaling Laws for Neural Language Models

Feedforward Neural Network Language Model(NNLM)原理及数学推导

Exploring the limits of language model阅读笔记

Probabilistic Graphical Model

Classification: Probabilistic Generative Model

Feedforward Neural Network Language Model(NNLM)c++核心代码实现

Recurrent Neural Network Based Language Model(RNNLM)原理及BPTT数学推导

论文阅读（三）：Text2Sign: Towards Sign Language Production using Neural Machine Translation and GAN

Language Model

【论文】A neural attention model for abstractive sentence summarization 阅读笔记

【论文阅读笔记】---《A Survey of Model Compression and Acceleration for Deep Neural Networks》

Neural Network Methods for Natural Language Processing 读书笔记5 —— RNN

Neural Network Methods for Natural Language Processing 读书笔记3 —— 语言模型和词向量

Neural Network Methods for Natural Language Processing 读书笔记2 —— 文本中的特征

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)