Language Modeling - 代码天地

Language Modeling

其他 2018-05-24 07:13:41 阅读次数: 1

一，语言模型

1，基本定义

一个语言模型包含一个词汇集合 $V$ 和一个函数 $p(w_1,w_2,...,w_n)$ ，并且该函数满足：

对于任意的词序列 $<w_1,w_2,...,w_n>\in S,p(w_1,w_2,...,w_n)\ge 0$ ，其中 $S$ 表示基于词汇集合 $V$ 的词序列集合，词序列就是句子。
此外， $\sum_{< w_{1}, w_{2}, . . ., w_{n} >\in S} p (w_{1}, w_{2}, . . ., w_{n}) = 1$ $\sum_{<w_1,w_2,...,w_n>\in S}p(w_1,w_2,...,w_n)=1$
因此， $p(w_1,w_2,...,w_n)$ 本质上是基于词序列集合 $S$ 中词序列的概率分布。

所以，语言模型最本质的作用就是用来衡量一个词序列符合自然语言表达的程度。

2，推导语言模型的四个步骤

首先使用链式法则展开 $p(w_1,w_2,...,w_n)$ ： $p (w_{1}, w_{2}, . . ., w_{n}) = \prod_{i = 1}^{n} p (w_{i} | w_{1}, w_{2}, . . ., w_{i - 1})$ $p(w_1,w_2,...,w_n)=\prod_{i=1}^{n}p(w_i|w_1,w_2,...,w_{i-1})$ 其中我们假设 $w_0,w_{-1}$ 为 $*$ ，代表句子的开始； $w_n$ 为STOP，代表句子的结尾。
然后使用马尔可夫独立性假设(这里使用二阶马尔可夫假设也称二阶马尔可夫模型)，化简上面展开式中的每个式子： $p (w_{i} | w_{1}, w_{2}, . . ., w_{i - 1}) = p (w_{i} | w_{i - 2} w_{i - 1})$ $p(w_i|w_1,w_2,...,w_{i-1})=p(w_i|w_{i-2}w_{i-1})$ 最终语言模型(这里是trigram LM)会变成： $p (w_{1}, w_{2}, . . ., w_{n}) = \prod_{i = 1}^{n} p (w_{i} | w_{i - 2}, w_{i - 1})$ $p(w_1,w_2,...,w_n)=\prod_{i=1}^{n}p(w_i|w_{i-2},w_{i-1})$ 这样可以大大减少要估计的语言模型参数。
然后使用训练语料估计语言模型的所有参数 $p(w|u,v)$ ，一般在最大似然估计的基础上使用一些平滑估计方法。
最后计算语言模型在测试集上的困惑度来评估语言模型的好坏，困惑度定义如下： $2^{- l}$ $2^{-l}$ 其中 $l = \frac{1}{M} \sum_{i = 1}^{m} \log_{2} p (x^{(i)})$ $l=\frac{1}{M}\sum_{i=1}^{m}\log_2 p(x^{(i)})$ $x^{(i)}$ 表示测试集中的第i个句子， $m$ 表示测试集中的句子个数， $M$ 测试集中所以词语的个数。
评估准则：困惑度越小，语言模型越好。可以把困惑度看成在某一语言模型下有效词汇表的大小。

3，语言模型应用举例

语言模型是NLP中最基本的模型，被广泛应用在语音识别、机器翻译等等应用中。
应用1：音字转换问题

应用2：汉语分词问题

二，平滑估计方法

使用最大似然估计法估计trigram语言模型的参数为：

p (w | u, v) = \frac{c (u, v, w)}{c (u, v)}

$p(w|u,v)=\frac{c(u,v,w)}{c(u,v)}$
很容易出现零概率问题。所以需要一些平滑估计方法来估计参数。

平滑估计方法的基本思想：调整最大似然估计的概率值,使零概率增值，使非零概率下调，“劫富济贫”，消除零概率，改进模型的整体正确率。
基本目标：最小化语言模型在测试集上的困惑度。
基本约束： $\sum_{w_i}p(w_i|w_1,w_2,...,w_n)=1$ 。

现有的平滑估计方法有：

Laplace平滑(加一平滑法)
Linear Interpolation（线性插值法）
Discounting法（折扣法或减值法）：①Good-Turing估计②Katz后退法③绝对减值法④线性减值法。

在实际中最常用的是线性插值法和折扣法。

1，线性插值法

使用一些低阶参数估计来避免零概率问题。例如trigram LM的线性插值法如下：

扫描二维码关注公众号，回复： 1004039 查看本文章

（1）首先用MLE估计出trigram、bigram和unigram下的参数

（2）然后，结合这三个估计值来估计trigram LM最终的参数估计值：

（3）通过最小化验证集上该语言模型的困惑度来确定 $\lambda_1、\lambda_2、\lambda_3$ 的值。或者最大化验证集上该语言模型的概率值，即最大化概率的对数似然。

其实还可以进行一些改进， $\lambda_1$ 应该随着 $c(u,v)$ 的增大而增大， $\lambda_2$ 应该随着 $c(v)$ 的增大而增大，所以

改进方法1：

该方法虽然不是最优的，但是非常简单而且在一些应用中表现地也非常好。

改进方法2：Bucketing，即将 $c(u,v)$ 的取值分成多个取值区间，每个取值区间有一组 $\lambda_1、\lambda_2、\lambda_3$ 。

2，折扣法（又称减值法）

绝对减值法产生的n-gram一般优于线性减值法。

下面主要说一下Katz后退法：

（1）首先计算折损后的计数值：

c^{*} (v, w) = c (v, w) - β

$c^*(v,w)=c(v,w)-\beta$
（2）然后计算未见事件总的概率值：

α (v) = 1 - \sum_{w : c (v, w) > 0} \frac{c^{*} (v, w)}{c (v)}

$\alpha(v)=1-\sum_{w:c(v,w)\gt 0}\frac{c^*(v,w)}{c(v)}$
（3）计算最后的估计值

其中，

三，语言模型的自适应

由于语言模型对训练文本的类型、主题和风格等都十分敏感，所以我们需要对上述基本的语言模型进行一些自适应的改进。
自适应的方法主要有：

基于缓存的语言模型
基于混合的语言模型
基于最大熵的语言模型

每个方法的具体思想可参考宗成庆老师的《统计自然语言处理》

四，语言模型的应用

语言模型广泛地应用于自然语言处理的各个方面，是统计自然语言处理方法中最核心、最基本的模型。

1，基于语言模型的分词方法

所以，我们可以首先把词序列转换为类序列，然后再进行分词：

其中p(C)是基于词类别的语言模型。

2，分词和词性标注一体化方法

一种经典的模型如下：

其中W是词序列，T是标注的词性序列。

该模型中就用到了基于单词的语言模型和基于词性的语言模型，前者仅增强了对分词的约束，而后者不仅对分词有帮助，也对词性标注有帮助。

总之，语言模型是极其重要的！

猜你喜欢

转载自blog.csdn.net/h2026966427/article/details/79811252

Language Modeling

RNN and Language modeling in TensorFlow

学习笔记之UML ( Unified Modeling Language )

AudioLM: a Language Modeling Approach to Audio Generation

Retrieval-Augmented Multimodal Language Modeling

UML(uml:unified modeling language.）学习笔记

A Language Modeling Approach to Predicting Reading Difficulty-paer

UML类图（Unified Modeling Language Class Diagrams)

DSM：使用MetaEdit+编写Family Tree Modeling Language

UML——Unified modeling language UML (统一建模语言)

UML（Unified Modeling Language 统一建模语言）

统一建模语言UML（Unified Modeling Language）

ReadLikeHumans: Autonomous,Bidirectional and Iterative Language Modeling for Scene Text Recognition

详细介绍Deeper Text Understanding for IR with Contextual Neural Language Modeling

【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways

论文分享 | WSBERT：Weighted Sampling for Masked Language Modeling

Transformers预训练模型使用：语言建模 Language Modeling

论文阅读-A General Language for Modeling Social Media Account Behavior

NLP领域中两种语言模型AR(AutoRegressive Language Modeling)和AE(AutoEncoding Language Modeling)

Modeling

UML（Unified Modeling Language）统一建模语言-----第一节

UML（Unified Modeling Language）统一建模语言-----第二节

Recurrent neural network language modeling toolkit 源码内部数据结构图解

Language Modeling with Gated Convolutional Networks(句子建模之门控CNN）--模型简介篇

【中级软考】UML图（Unified Modeling Language统一建模语言、标准建模语言）

面向对象第三单元总结 - JML(Java Modeling Language) - 简体版本

李宏毅DLHLP.08.Speech Recognition.7/7. LANGUAGE MODELING

Exploring the Intersection of Large Language Models and Agent-Based Modeling via Prompt Engineering

【论文精读】MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER

InstructTTS: Modeling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)