第三章 3、1 文本预处理之分词（Word Segmentation） - 代码天地

第三章 3、1 文本预处理之分词（Word Segmentation）

其他 2020-04-10 17:45:18 阅读次数: 0

一、大纲总览

1、tough资料：各类文本等的输入。
2、分词。好的分词算法很重要。
3、文本预处理。
4、标准化：单词的时态，单复数。都转换为最原始的。这时还是字符串。
5、特征提取：向量表示，thidf算法，w2w，seq2seq算法等等。
6、模型：向量有了，然后就是根据算法去匹配。
在这里插入图片描述

二、分词

可以直接用的分词工具。
在这里插入图片描述

1、分词算法之最大匹配
向前最大匹配、向后最大匹配、双向最大匹配（不讲）

向前最大匹配
1、首先输入一个句子，已知后建好的词典库，设置好窗口值（5）
2、窗口从第一个汉字开始向后滑动以此减少
3、在词典库中匹配到的话，就直接切分句子，然后窗口移动到下一个句子里面
4、每一个窗口里面是向前匹配的

在这里插入图片描述

向后最大匹配
与向前匹配道理一样
1、窗口从最后一个汉字开始，然后向后不断缩小范围。
2、然后进行切割分词，再词典当中找到之后窗口滑动
3、向前和向后粉刺的结果有时候会很一样

在这里插入图片描述

最大匹配的缺点：
优点是算法简单，很容易理解。
1、词典的存在很重要，怎么构建词典库。
2、最重要的是没有考虑语义性问题。
3、类似于贪心算法，只是局部最优。
分词方法之考虑语义（incorate semantic）
讲分词后的结果放到模型里面，输出分词的是否合理

其中一个简单的方法就是将一个句子的所有可能的分词都分出来，然后放到这个模型，计算那个分词结果最好的方式。输出这个句子的概率值，也就是之前说的LM模型。一般结果会取值一个-log，越小越好。
维特比算法：提高了效率，分词和选择最好的分词同时进行。

维特比算法基于动态规划
1、图中每一条弧代表句子当中的一个字或者短语，弧上的权重是这个字或者短语的-log（所以结果越小越好）
2、在词典中没有出现的单字或者短语，权重为极大值
3、蓝色的弧是在词典当中出现的单字或者短语，单字是一定有弧，短语按照词典画弧。
4、动态规划：找开始节点到最终节点的权重和最短路径。F8：定义为开始节点到8节点的权重和最短路径。F8= F7+F7到F8的最短路。F7=F6+F6到F7的最短路…以此类推
5、图中可以到达8节点有3条路径。笔算正确，最终结果建右下角。

三、分词算法总结

LM模型。匹配规则就是最大匹配（最简单的）。概率统计是HMM,CRF等等。
分词现在已经不再是难题。
在这里插入图片描述

发布了31 篇原创文章 · 获赞 3 · 访问量 878

私信关注

猜你喜欢

转载自blog.csdn.net/qq_38888209/article/details/104398821

第三章 3、1 文本预处理之分词（Word Segmentation）

第三章 3、3文本预处理之文本的表示（Word Representaion）

第三章 3、2 文本预处理之拼写纠错（Spell Correction）

《Linux达人养成计划1》第三章命令基本格式及文件处理命令

操作系统--第三章处理机调度与死锁_1

第三章处理机调度与死锁（1）

第三章 1/2 . 处理机调度与常见算法+死锁

第三章：android基础(1)-消息处理机制

操作系统原理第三章处理机调度和死锁（1）

【操作系统】第三章--处理机调度与死锁--笔记与理解(1)

第三章：用opencv3处理图像

第三章 3、4 语言模型及其平滑项处理

第三章-OpenCV基础-2&3-图像处理

第三章1

第三章作业1

第三章（1）

第三章习题（1）

第三章枚举1

3 第三章递归

第三章处理数据

第三章 - 处理数据

第三章、处理数据

第三章——处理数据

【CSS3系列】第三章 · CSS3新增边框和文本属性

第三章函数预处理

第三章数据的预处理与特征构建

构建高性能站web站点第三章服务器并发处理能力（1）

操作系统第三章学习笔记（1）处理机调度相关基本概念

操作系统第三章处理机调度与死锁知识点总结（1）

构建高性能站web站点第三章服务器并发处理能力（3）

今日推荐

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

Ubuntu 24.04 LTS 正式“开放升级”

【送书福利-第四十四期】《深入Rust标准库》

开源日报 | Altman七宗罪；微软必应全球宕机；美国限制AI出口；淘汰VBScript；PostgreSQL 17

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

周排行

通知、自定义控件颜色

山东财经大学新生赛暨天梯赛选拔赛 C Retina

C#中String类的几个方法(IndexOf、LastIndexOf、Substring)

怎么把WPS文字自动替换直引号为弯引号？

《Spring实战》-第六章:渲染视图（表达式，标签库，模板）

ubuntu11.04安装apache,php,mysql

梦里Babel知多少（一）

python 中whl文件安装

UI设计师月薪大概是多少一般能工作到多少岁

Thinkpad Fn键与Ctrl键互换【不通过BIOS】

每日归档

更多

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)