n-gram语言模型及平滑算法 - 代码天地

n-gram语言模型及平滑算法

其他 2018-10-19 00:11:11 阅读次数: 0

一、n-gram模型概念

n-gram模型也称为n-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前面n-1个词相关，可以表示为：

当n取1、2、3时，n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率P(Wi|Wi-n+1,...,Wi-1)。假设词表的大小为100,000，那么n-gram模型的参数数量为100,000n。n越大，模型越准确，也越复杂，需要的计算量越大。最常用的是bigram，其次是unigram和trigram，n取≥4的情况较少。

二、n-gram模型的参数估计

模型的参数估计也称为模型的训练，n-gram模型的参数的估计表达式如下：

一般采用最大似然估计（Maximum Likelihood Estimation，MLE）的方法对模型的参数进行估计：

　

举个例子来说明一下，IBM Brown利用366M英语语料训练trigram，结果在测试语料中，有14.7%的trigram和2.2%的bigram在训练中没有出现；根据博士期间所在的实验室统计结果，利用500万字人民日报训练bigram模型，用150万字人民日报作为测试语料，结果有23.12%的bigram没有出现。这种问题也被称为数据稀疏（Data Sparseness），解决数据稀疏问题可以通过数据平滑（Data Smoothing）技术来解决。

三、平滑算法

数据平滑是对频率为0的n元对进行估计，典型的平滑算法有加法平滑、Good-Turing平滑、Katz平滑、插值平滑等。

3.1 加法平滑

3.1.1 Laplace法则（加1平滑）

扫描二维码关注公众号，回复： 3618581 查看本文章

通过给每个n元组都加1，实现将一小部分概率转移到未知事件上，公式如下：

3.1.2 Lidstone 法则

3.2 Good-Turing估计

3.3 Katz回退算法

3.4. 线性插值

四、arpa文件的各部分参数详解

猜你喜欢

转载自blog.csdn.net/LZH_12345/article/details/82990101

n-gram语言模型及平滑算法

N-gram语言模型 & Perplexity & 平滑

n-gram语言模型——句子概率分布计算与平滑

n-gram模型中的平滑方法

N-gram 语言模型

N-gram语言模型

对语言模型N-gram的理解

N-gram模型

N-gram算法

简单理解语言模型与N-gram语言模型

理解n-gram模型

N-gram模型简介

NLP task2 _ 自然语言处理中N-Gram模型的Smoothing算法

算法：N-gram语法

自然语言处理NLP中的N-gram模型

自然语言处理中的N-Gram模型

N-gram模型(自然语言处理)

自然语言处理中的N-Gram模型详解

(五)N-gram语言模型的数据处理

N-gram语言模型与马尔科夫假设

通俗理解N-gram语言模型。（转）

DeepLearning笔记: 语言模型和 N-gram

n-gram语言模型的生成过程及原理

AI大语音（十）——N-gram语言模型

神经网络语言模型之N-gram

N-Gram语言模型工具kenlm的详细安装教程

n-gram语言模型——文本生成源码

计算机语言学笔记（三）N-gram和数据平滑

MATLAB算法实战应用案例精讲-【深度学习】自然语言处理模型N-Gram

人工智能-算法篇49篇-自然语言处理之N-gram模型学习

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)