【NLP】_01_NLP基础知识 - 代码天地

【NLP】_01_NLP基础知识

其他 2020-03-08 13:28:01 阅读次数: 0

文章目录

【一】 Inverted Index（倒排索引）
【二】 Noisy Channel Model
【三】 Language Model（语言模型）
【四】 Markov Assumption（马尔科夫假设）
【五】 Unigram Bigram N-gram（基础语言模型）
【六】 Perplexity（一种评估语言模型的方法）
【七】 Smoothing（解决冷启动问题）

【7.1】 Add-one Smoothing（拉普拉斯 Laplace）
【7.2】 Add-K Smoothing
【7.3】 Interpolation（考虑多种语言模型，如 Unigram + Bigram + Trigram）
【7.4】 Good-Turning Smoothing

【一】 Inverted Index（倒排索引）

Vocabulary：[ Word1, Word2, …, WordN ]
Word1: [ Doc1, Doc2, … ]；Word2: [ Doc1, Doc2, … ]；WordN: [ Doc1, Doc2, … ]
建立倒排表，用于快速检索，如搜索引擎

【二】 Noisy Channel Model

Bayes 贝叶斯公式：P(A|B) = P(B|A) * P(A) / P(B)
P(B) 一般为一个常数项，所以 P(A|B) ∝ P(B|A) * P(A)
P(B|A) 一般称为 Translation Model，即翻译模型
P(A) 一般称为 Language Model，即语言模型
应用场景一般与文本（text）有关，如 OCR，中英互译，密码破解，语音识别等

【三】 Language Model（语言模型）

Chain Rule ( Bayes )：P(W1, W2, W3, …, Wn) = P(W1) * P(W2 | W1) * P(W3 | W1, W2) …

【四】 Markov Assumption（马尔科夫假设）

一种 近似估计 方法，弥补 LM 的稀疏性
N Order Assumption：考虑前 N 个单词

【五】 Unigram Bigram N-gram（基础语言模型）

Unigram（0 Order Assumption）：P(W1, W2, W3, …, Wn) = P(W1) * P(W2) * P(W3) * … * P(Wn)
Bigram（1 Order Assumption）：P(W1, W2, W3, …, Wn) = P(W1) * P(W2 | W1) * P(W3 | W2) * … * P(Wn | Wn-1)
N-gram（N-1 Order Assumption）：不举例子了

【六】 Perplexity（一种评估语言模型的方法）

Perplexity = 2 ^ (-x)：x（average log likelihood）

主要针对 无监督（unsupervised）下的文本评估

【七】 Smoothing（解决冷启动问题）

【7.1】 Add-one Smoothing（拉普拉斯 Laplace）

【7.2】 Add-K Smoothing

【7.3】 Interpolation（考虑多种语言模型，如 Unigram + Bigram + Trigram）

【7.4】 Good-Turning Smoothing

Good-Turning Smoothing 公式（ $N_c$ 表示出现 $c$ 次单词的个数）

Good-Turning Smoothing 缺点

单词次数的出现大多数情况下 不是连续的，解决方法是通过 机器学习 去拟合一条曲线，大致的估计空缺的值

DamonDT

发布了57 篇原创文章 · 获赞 5 · 访问量 2876

私信关注

猜你喜欢

转载自blog.csdn.net/qq_34330456/article/details/104110477

【NLP】_01_NLP基础知识

【NLP】NLP基础知识

NLP基础知识

【NLP】0 基础知识

NLP&数据挖掘基础知识

NLP之文本分类方法之基础知识

第一弹----NLP基础知识

NLP模型应用之一：基础知识

自然语言处理（NLP）基础知识大全

01-NLP原理与基础

NLP基础

【NLP】基础：

NLP汉语自然语言处理入门基础知识介绍

【NLP】1.基础知识与中英文文本操作

NLP基础知识（语法语义、LDA、N-gram、词嵌入）

网易云微专业课NLP：1.基础知识与中英文文本操作（1.NLP基础）

NLP

【NLP】

NLP 01(介绍)

NLP到Word2Vec 01 | NLP理论基础

自然语言处理从入门到应用——自然语言处理（Natural Language Processing，NLP）基础知识

NLP 分词相关知识

中文NLP知识总结

NLP知识整理(下)

NLP知识整理(上)

CSS基础知识01

Java基础知识01

javase基础知识01

Oracle基础知识01

Linux基础知识01

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)