NLP（三）：信息的度量 - 代码天地

NLP（三）：信息的度量

其他 2019-04-05 14:21:11 阅读次数: 0

版权声明：尊重知识产权与劳动成果 https://blog.csdn.net/hzk1562110692/article/details/88672688

这是一系列自然语言处理的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。
适用人群：自然语言处理初学者，转AI的开发人员。
编程语言：Python
参考书籍：《数学之美》
信息熵相关知识总结

信息熵

信息是我们一直在谈论的东西，但信息这个概念本身依然比较抽象。在百度百科中的定义：信息，泛指人类社会传播的一切内容，指音讯、消息、通信系统传输和处理的对象。

但信息可不可以被量化，怎样量化？答案当然是有的，那就是“信息熵”。早在1948年，香农(Shannon)在他著名的《通信的数学原理》论文中指出：“信息是用来消除随机不确定性的东西”，并提出了“信息熵”的概念（借用了热力学中熵的概念），来解决信息的度量问题。
信息论

信息论知识点小结

交叉熵cross-entropy

交叉熵(cross-entropy):我们知道通常深度学习模型最后一般都会使用交叉熵作为模型的损失函数（逻辑回归LR的损失函数就是交叉熵)。

损失函数是计算模型预测值和数据真实值之间的相关性,所以可以使用**相对熵(KL散度)**计算（相对熵用来衡量两个取值为正数函数的相似性）。

其中前一部分的-H(p(x))是p的熵,后一部分就是我们所说的交叉熵:

-H(p(x))是不变的,所以我们可以通过计算后一部分的交叉熵来求得Loss。所以通常会使用交叉熵来作为Loss函数,同理交叉熵越小,预测值和真实值之间相似度越高,模型越好。

困惑度(perplexity,PPL)

在NLP中,通常使用困惑度（迷惑度/混乱度）作为衡量语言模型好坏的指标。

其中S为句子,N是句子中单词的个数,p(wi)代表第i个单词的概率.所以PPL越小,p(wi)的概率越高,则一句话属于自然语言的概率也就越高，即语言模型越好。

除了上面介绍的之外，基于信息论的信息增益比(率)、基尼系数Gini 常用于分类的算法——决策树。

猜你喜欢

转载自blog.csdn.net/hzk1562110692/article/details/88672688

NLP（三）：信息的度量

信息的度量（信息熵）

信息的度量和作用

信息论-信息的度量

NLP度量指标BELU真的完美么？

NLP(三)

【NLP】互信息

NLP系列文章（四）——文本的相似性度量

NLP系列文章（四）——文本的相似性度量

三、COSMIC度量策略阶段

机器学习（三）：性能度量

信息量的度量——熵(entropy)

用R语言实现信息度量

地球互联网的信息交易的度量

重磅！「自然语言处理（NLP）」全球学术界”巨佬“信息大盘点（三）！

NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）

NLP学习（三）-词典

NLP（三）——语言模型

信息论 | information theory | 信息度量 | information measures（一）

人生三量：度量，胆量，心量

NLP--Bayes-NGram(三)

复习NLP-实战（三）

NLP从入门到实战（三）

nlp中的经典模型(三)

数学之美系列四：怎样度量信息?

1.2 信息的度量和通信系统的性能指标

NLP之开放式信息抽取

NLP 2.5信息抽取 Information extraction

NLP——Information Extraction信息提取

系统学习NLP（三）--NLP入门综述

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)