序列模型之语言模型（Language model）简记 - 代码天地

序列模型之语言模型（Language model）简记

其他 2019-02-18 02:01:06 阅读次数: 0

语言模型用来估计句子的可能性(sentence)

一个句子的概率（是第k个词）

语料库（corpus）指的是很大的某种语言（例如英语）句子组成的文本。通过将语料库中的每个单词映射成索引（例如独热向量）形成字典。可以按需在字典中添加句子末尾标志<EOS>（end of sentence）和对应未出现在字典中的低频词的标志<UNK>（unknown words）作为补充。

语言模型示意图

示意图中的每一个表示一个预测值（单词），、是预输入向量，均为，表示序列长度。

假如我们在训练集中得到一句话：Cats average 15 hours of sleep a day. 首先将每个词标记为、、等，即标签值。

语言模型第一个激活项的输出是，他是通过softmax预测字典中每一个词作为第一个词的概率。不管预测结果是什么，将结果作为第二个激活项的输入，经过相同的操作通过softmax获得的输出是条件概率()，依次类推第三个输出是()……

在某个时间步t正确的词是，softmax预测值是，则单个预测的损失函数是

(,)=

总体损失函数是

当一个句子很长时，预测一个词时考虑之前所有的词不现实，这时出现了-语言模型。他使用了马尔科夫模型，即任意一个词出现的概率只与它前面出现的n-1个词有关。

根据n值的不同分为（n=1，即每个词都是独立的）、（n=2，即每个词跟他之前的一个词有关）、（n=3，即每个词跟他之前的两个词有关）……从模型的效果来看，理论上n的取值越大，效果越好。但随着n取值的增加，效果提升的幅度是在下降的。

一个句子的概率

bigram的计算

际应用中还会遇到一个问题：数据稀疏，解决方法介绍加法平滑。

假设有一个词组在训练语料中没有出现过，那么它的频次就为0，但实际上显然不能认为它出现的概率为0，我们无法保证训练语料的完备性。那么，解决的方法是什么？如果我们默认每一个词组都出现至少1次呢，无论词组出现的频次是多少，都往上加1，这就能够解决未出现词组概率为0的问题了。

加法平滑，取常数

猜你喜欢

转载自blog.csdn.net/weixin_34397291/article/details/86781389

序列模型之语言模型（Language model）简记

语言模型（language model）

注意力模型（Attention Model）简记

NLP中的语言模型(language model)

线上学习-语言模型 language model

统计语言模型(Statistical Language Model)-学习笔记

了解语言模型Model Language，NLP必备

时间序列模型之Arima Model

Language Model perplexity by using tensorflow使用tensorflow RNN模型计算语言模型的困惑度

2021-1-2 吴恩达-C5 序列模型-w1 循环序列模型(课后编程2-Character level language model-Dinosaurus Island 字符级语言模型-恐龙岛)

自然语言处理从入门到应用——自然语言处理的语言模型（Language Model，LM）

序列模型第一周作业2: Character level language model - Dinosaurus land

【Language model】使用RNN LSTM训练语言模型写出45°角仰望星空的文章

语言模型（预训练与词向量）第二篇-NNLM（Nerual Network Language Model）

论文阅读：A Neural Probabilistic Language Model 一种神经概率语言模型

SIMVLM：简单视觉语言模型，SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

【预训练语言模型】WKLM: Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

UniLM详解，统一语言模型（Unified Language Model，UniLM）

深入理解深度学习——BERT派生模型：跨语言模型XLM（Cross-lingual Language Model）

laravel之模型Model

【论文&模型讲解】VideoBERT: A Joint Model for Video and Language Representation Learning

时间序列模型之指数模型(Holt-Winters Model)

Model 模型

模型（Model）

模型Model

自然语言处理从入门到应用——静态词向量预训练模型：神经网络语言模型（Neural Network Language Model）

【转】概念主题模型简记

ORM之模型对象Model

Language Model

大语言模型LLM Large Language Model 的涌现Emergence 反馈强化学习 RLHF 预训练 token word embeddings 温度 temperature=0.7

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)