文本上的算法读书笔记一--基础知识

其他 2018-11-03 22:18:50 阅读次数: 0

1.1 概率论

概率描述一些事情发生的可能性。

大数定理：

当试验次数（样本）足够多的时候，事件出现的频率无限接近于该事件真实发生的概率。

来表示随机变量的概率，那么就要满足如下两个特性：

联合概率

表示两个事件共同发生的概率，如果相互独立，则

条件概率

是指在已知事件x已发生的情况下，事件y发生的概率。且有。如果这两个事件相互独立，那么与相等。

联合概率和条件概率分别对应两个模型：生成模型和判别模型。

期望：

概率分别的均值称为期望：

期望就是对每个可能的的取值x，与其对应的概率值,进行相乘求和。假如一个随机变量的概率分布式均匀分布，期望就等于均值。

方差：

概率分布的方差为：

方差表示随机变量偏离期望的大小。衡量数据的波动性，方差越小表示数据越稳定，反之波动性越大。

概率分布有：均匀分布，正态分布，二项分布，泊松分布，指数分布等

1.2 信息论

外面下雨了，很平常

见到外星人了，很稀奇

同样两条信息。一条信息量很少，一条信息量很大，很有价值，如何量化呢

信息熵

需要信息熵，一个随机变量X的信息熵如下：

信息越少，事件的不确定性越大，信息熵很大。

信息熵表示不确定性的度量

联合熵：

描述的是一对随机变量X和Y的不确定性。

条件熵：

条件熵衡量的是在一个随机变量X已知的情况下，另一个随机变量Y的不确定性。

互信息：

衡量两个随机变量的相关程度，当X和Y完全相关时，互信息就是1，完全无关时，互信息就是0。

互信息与熵的关系：

相对熵（KL距离）：

相对熵是衡量相同时间空间里两个概率分布（函数）的差异程度（不同于熵和互信息，它们衡量的是随机变量的关系）

分布相同，相对熵为0，当差异增加，则相对熵增加。

物理意义在于如果用Q分布来编码P分布（一般是真实分布）的话，平均每个基本事件编码长度增加了多少比特。

交叉熵：

可以理解为p的信息熵+

举例

计算机和硬件的互信息就比计算机和杯子的互信息要大，因为更相关。

计算方法，，x独立出现的概率，y独立出现的概率，x和y同时出现的概率。

文档中计算词出现的个数，相除就可以了

1.2 贝叶斯法则

定义如下：

是后验概率，是似然概率，是先验概率，称为标准化常量。

应用：

分词是自然语言处理的最底层，最基本的一个技术了。

对一句话分词，最简答的就是查字典，使用的策略是最大值匹配。

查字典法有两种：

正向最大匹配法和反向最大匹配法。一个是从前向后匹配，一个是从后向前匹配。

棘手问题：

歧义问题。

如学历史知识

前向：学历/史/知识

后向：学/历史/知识

存在二义性。

基于统计的方法：

假设用户输入的句子用S表示，把S分词后结果表示为：

那么我们求得是达到最大值的那个分词结果，这个概率不好求，于是通过贝叶斯：

是一个标准化常量，公式改写为

表示这种分词生成句子S的可能性，表示这种分词本身的可能性。

可以认为就是1，因为必然能生成S,那么剩下的就是计算

在数学中，要简化数学模型，那就是假设

假设句子中一个词的出现概率只依赖于它前面的那个词，根据全概率公式：

可以改写成：

接下来就是估计，这样问题变得简单，只要统计这对词在统计文本中前后相邻出现了多少次，以及在同样的文本中出现了多少次。

平滑，防止概率为0

实际系统中，由于性能等原因，很少使用语言模型来分词消歧，而是使用序列标注、共现和一些规则等方法来消歧。

猜你喜欢

转载自blog.csdn.net/qq_24495287/article/details/83063484

文本上的算法读书笔记一--基础知识

latex教程——读书笔记整理(一）——基础知识

Netty基础知识总结（Netty实战读书笔记）

WAF技术及应用读书笔记（二）基础知识

UNIX读书笔记----UNIX基础知识

读书笔记 --- > [基础知识点] 小结2

读书笔记 --- > [基础知识点] 小结1

读书笔记 --- > [基础知识点] 小结3

《FPGA原理与结构》读书笔记（0）-基础知识

【读书笔记】web程序设计第一章基础知识

图解TCP/IP读书笔记一——基础知识（第二章）

Unix环境高级编程读书笔记第一章 UNIX基础知识

【图解TCP_IP读书笔记】第一章：网络基础知识

文本上的算法读书笔记二--我们生活在一个寻求最优的世界里

Java核心技术卷一基础知识-第7章-图形程序设计-读书笔记

Java核心技术卷一基础知识-第11章-异常、断言、日志和调试-读书笔记

《Java并发编程实战》读书笔记-第一部分基础知识小结

《python基础教程》第1章快速改造：基础知识读书笔记

【算法读书笔记】第一章基础

文本上的算法读书笔记七--理解语言有多难

文本上的算法读书笔记六--搜索引擎

文本上的算法读书笔记五--nlp的需要知道的术语

文本上的算法读书笔记四--分布式系统

文本上的算法——深入浅出自然语言处理（读书笔记）

深入理解java虚拟机读书笔记——基础知识篇

《Java核心技术卷Ⅰ 基础知识》读书笔记

读书笔记（Java开发实战经典）：Java基础知识

《JavaScript设计模式与开发实践》读书笔记-基础知识

【读书笔记】线性代数基础知识脉络梳理

【图解TCP_IP读书笔记】第二章：TCP/IP 基础知识

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)