N元语言模型的训练方法 - 代码天地

N元语言模型的训练方法

企业开发 2019-02-23 05:40:48 阅读次数: 0

------------------------------------------------------------------
大家好，我是Bright，微软拼音的开发工程师。我之前介绍了语言模型的基本概念，本文介绍一下N-gram语言模型的训练方法。
------------------------------------------------------------------

模型的训练也称为模型的参数估计，参数可以用下式估计：

(1)

这样的模型是以词语为基本单位，但是汉语文本没有空格分隔，因此需要先对汉语文本进行分词处理，再在分好词的语料上统计n元对的出现次数。

语言模型的质量依赖于分词语料的质量。为了获得良好的分词语料，可以先用分词工具对未分词语料（生语料）进行自动化的分词标注，然后对其中可能分词错误的地方进行人工校对，最后得到的语料称为熟语料。根据是否需要熟语料，训练方法分为有监督和无监督的两种方式。

有监督的训练方法

有监督的训练方法比较简单。先统计n元对的出现次数，然后采用最大似然估计的方法对参数进行估计（如公式1）。

无监督的训练方法

无监督的训练方法需要适当规模的生语料和词表，然后采用EM算法迭代地对语言模型的参数进行调整。EM 算法是 Dempster Laind Rubin 于 1977 年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行估计，是一种非常简单实用的学习算法。

假设我们有一组语料，其表示为，词表。我们期望将语料分成最理想的形式，我们的优化目标可以表示为，它就是原始语料在分词结果时的概率，我们期望这个概率最大，因此，最佳的为：

(2)

基于EM算法的LM参数估计过程如下：

初始化：首先随机地初始化或者根据某种先验知识初始化模型的参数θ。基于词表获得原始语料得各种分词结果。

E-step：利用当前语言模型的参数，估计各个分词结果的概率。

M-step：对于原始语料的各种分词形式，统计n元对的数量，并按照概率进行加权，然后更新模型的参数，得到新的参数θ。

如此反复执行E-step和M-step，直到达到模型收敛。

收敛的条件可以是：在原始语料上的最佳分词结果的概率(或者迷惑度)在两次相邻两次迭代的变化小于某固定阈值。

由于原始语料的所有可能的分词结果数量很大，计算各分词结果的概率就变得很困难。为此可以采用“前向-后向”（动态规划）算法，其可以较快速地实现n元对的统计。对unigram来说，假设我们想统计词语Wi的次数，基于“前向-后向”动态规划的统计算法如下：

对于语料C中Wi出现的所有可能位置，如。计算如下：

(3)

(4)

(5)

Z是概率归一化因子，保证语料所有可能的切分结果的概率总和为1：

(6)

其中称为前向概率，可能前向算法计算，称为后向概率，可能后向算法计算。

前向算法和后向算法很类似，一个是从前向后边扫描边计算，一个是从后向前边扫描边计算，都是动态规划算法。这里仅给出前向算法，前向算法的递归函数定义为:

(7)

其中为词语的unigram概率，如果不是一个词语，其概率为0。

上面是unigram的“前向-后向”动态规划统计算法，读者有兴趣可以自己推导一下bigram或者更高阶ngram的动态规划统计算法。

猜你喜欢

转载自blog.csdn.net/MSPinyin/article/details/6141556

N元语言模型的训练方法

N元语言模型

N元语言模型的解码算法

04 统计语言模型（n元语言模型）

BiGRU-Attention 模型训练方法

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）

语言模型（N元语言模型&平滑&语言模型评价指标）

ACL2023 | 面向信息检索的结构感知语言模型训练方法

winafl训练方法

对于数据量很小时模型训练方法

vit的预训练方法

提高情商的训练方法

NLP预训练模型4 -- 训练方法优化（RoBERTa、T5）

【CS231n】六&七、CNN训练方法学习笔记

matlab神经网络训练方法,matlab神经网络模型导出

opencv分类器训练方法

39、Tensorflow：Tensorflow 继续训练方法

HTS Sinsy音源库训练方法

机器学习-增量训练方法

Word2vec训练方法

神经网络训练方法(pytorch)

【记录】Keras迁移训练方法记录

NLP几种常用的对抗训练方法

深度学习中的高效训练方法

仿写段落训练方法

【大模型AIGC系列课程 3-3】低成本的领域&私域大模型训练方法

AAAI 2020论文分享 | 一种提升阅读理解模型鲁棒性的对抗训练方法

上海 AI 实验室联合多所高校推出 PonderV2 预训练方法与模型

图结构数据上的对抗训练方法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)