NLP(四) - 代码天地

NLP(四)

其他 2020-04-30 19:09:22 阅读次数: 0

一、Noisy Channel Model

应用场景：

语音识别，机器翻译，拼写纠错，OCR，密码破解

上面场景共同点是将信号转为文本

二、Language Model

用来判断一句话从语法上是否通顺

一个已经训练好的语言模型可以通过概率进行判断：

如何训练模型？

语言模型的目标

Chain Rule

扫描文档，找今天是春节我们都，找到了两句话：

因此，P(休息|今天，是，春节，我们，都)= 1/2

实际中长的句子往往是找不到的或很少，因此当条件包含多个单词时存在稀疏性问题

马尔可夫假设

近似

1st Order

当前单词只依赖前面一个单词

Unigram

当前单词与任何单词都是独立的关系

发向上面两个概率是一样的，不考虑单词顺序

Bigram

来自于1st Order Markov assumption

考虑前面一个单词

N-gram

估计语言模型的概率

Unigram

计算每个单词出现的概率

Bigram

今天出现了两次，其中今天后面是上午的有一次，因此P(上午|今天)概率是1/2

上午出现了一次，该次后面是想，因此 P(想|上午)=1

N-gram

N=3

只要单词没出现在语料库中，概率都是0，不合理

给平滑项

评估语言模型

评估方法

假设10为底的log，不好计算用a1、a2代替

平均log likelihood x = (a1+-2+-1+-2+a2+-1)/6

Add-one Smoothing

平滑概率为0的情况

Smoothing

Add-one Smoothing
Add-K Smoothing
Interpolation
Good-Turning Smoothing 现在未见到的东西，未来未必见不到

虽然我们是出现了0次，但是我们给它加1

实例

V是词典的大小，要排除重复的单词

如果下面不加V，总的概率加起来不等于1

Add-K Smoothing

K=1时就变为了Add-One smoothing

K可以自动选择，将K作为参数，进行优化

Interpolation

in the kitchen和in the arboretum都出现0次，但是in the kitchen显然不是什么生僻的词组，在未来的文档中肯定会出现

可以发现kitchen单词的频率是很高的，可以合理推断in the kitchen出现的概率应高于in the arboretum

猜你喜欢

转载自www.cnblogs.com/aidata/p/12810681.html

NLP(四)

NLP（四）：语言模型

NLP入门（四）RNN

复习NLP-实战（四）

四、NLP学习之HMM

NLP（四）词形还原（Lemmatization）

自然语言处理NLP（四）

系统学习NLP（四）--数据平滑

NLP--LDA主题模型(四)

DataWhale NLP 打卡（四）文本表示

Datawhale 之NLP学习-打卡（四）

NLP

【NLP】

python.nlp随笔（四）简单的全文检索系统

NLP学习记录（四）马尔科夫模型

【NLP】【四】jieba源码分析之词性标注

NLP入门（四）命名实体识别（NER）

NLP进阶之（四）于Tensorflow中使用Word Embedding

NLP系列文章（四）——文本的相似性度量

NLP系列文章（四）——文本的相似性度量

深度学习之NLP学习笔记（四）——Transformer模型

《NLP汉语自然语言处理原理与实践》第四章 NLP中的概率图模型

Stanford NLP 第四课神经网络复习

自然语言处理(NLP)四步流程：Embed->Encode->Attend->Predict

golang知识图谱NLP实战第四节——关系抽取完善逻辑

NLP学习（四）-英文语料处理(未整理好，请忽略)

nlp四大任务(分类、匹配、序列标注、文本生成)集成项目

系统学习NLP（二十四）--详解Transformer （Attention Is All You Need）

重磅！「自然语言处理（NLP）」全球学术界”巨佬“信息大盘点（四）！

NLP入门到实战（四）关键词权重计算算法

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

学习笔记(01):Python入门教程-计算机如何区分数字和字符

命令行提示符_颜色

五步轻松搞定Linux下的文件同步(备份)

Visio 2010，如何打开多个窗口

西安新起点|MBA考研十大热门城市

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【蓝桥杯】ADV-73 数组输出

[DeeplearningAI笔记]卷积神经网络4.11一维和三维卷积

Java 逻辑运算符

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

每日归档

更多

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)