n-gram模型中的平滑方法 - 代码天地

n-gram模型中的平滑方法

其他 2018-08-28 12:36:13 阅读次数: 0

当使用n-gram模型对测试语料中的句子进行评估时，如果句子中包含在训练集中未出现的n元语法，则计算出来句子出现的概率为0。例如上一篇博客语言模型和n元语法中的例子，此时用该模型来计算下面句子的概率：

因此，必须分配给所有可能出现的字符串一个非零的概率值来避免这种错误的发生。平滑技术（smoothing）就是用来解决此类问题，基本思想是“劫富济贫"，即提高低概率，降低高概率。常见的有加1法（additive smoothing）、减值法/折扣法（discounting）和插值法。

加1法（additive smoothing）

这是最简单直观的一种平滑算法，假设每个n元语法出现的次数比实际出现（训练集）的次数多一次。如下面式子，，此时取1，也有部分学者认为加1效果并不好，这个就得看实际情况了。

这种方法虽然直观的解决了零概率的问题，但是存在下面几个问题：

1、由于训练语料中未出现n-gram数量太多，平滑后，所有未出现的n-Gram占据了整个概率分布中的一个很大的比例。

2、认为所有未出现的n-Gram概率相等。

3、对于出现在训练语料中的那些n-Gram，都增加同样的频度值。

这些问题都还值得商榷。

减值法/折扣法（discounting）

基本思想：修改训练样本中事件的实际计数，使样本中(实际出现的)不同事件的概率之和小于1，剩余的概率量分配给未见概率。

1、Good-Turing估计法

2、Back-off(后退/后备)法

3、Absolute discounting(绝对减值法)

插值法

猜你喜欢

转载自blog.csdn.net/Torero_lch/article/details/81667855

n-gram模型中的平滑方法

N-gram语言模型 & Perplexity & 平滑

n-gram语言模型及平滑算法

N-gram模型

n-gram语言模型——句子概率分布计算与平滑

理解n-gram模型

N-gram模型简介

N-gram 语言模型

N-gram语言模型

自然语言处理NLP中的N-gram模型

自然语言处理中的N-Gram模型

自然语言处理中的N-Gram模型详解

对语言模型N-gram的理解

基于n-gram模型的中文分词

【NLP】如何理解n-gram模型

nlp5-n-gram/语言模型(数据平滑方法

N-gram算法

N-Gram

N-gram理解

NLP task2 _ 自然语言处理中N-Gram模型的Smoothing算法

简单理解语言模型与N-gram语言模型

N-gram模型(自然语言处理)

(五)N-gram语言模型的数据处理

N-gram语言模型与马尔科夫假设

通俗理解N-gram语言模型。（转）

DeepLearning笔记: 语言模型和 N-gram

NLP学习记录4——n-gram模型（待整理）

文本向量化 - 词袋模型， N-gram 特征

n-gram语言模型的生成过程及原理

AI大语音（十）——N-gram语言模型

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)