NLP（一）——文本处理

企业开发 2023-06-19 06:53:25 阅读次数: 0

近期在阅读跨模态检索相关论文时，碰到很多处理文本的网络结构以及一些名词不是很了解，通过我的学习现在将这些知识点记录总结。本文中出现的图片来自于我学习的视频截屏：https://www.bilibili.com/video/BV1BR4y1g7LM?p=25&spm_id_from=pageDriver

目录

1、Word Segmentation（分词）

分词工具：Jieba分词（常用），SnowNLP，LTP，HanNLP。

分词的算法

1.最大匹配算法

2.考虑语义的算法

2、Spell Correction（拼写错误纠正）

3、Filtering Words

文本处理的流程

1、Word Segmentation（分词）

分词工具：Jieba分词（常用），SnowNLP，LTP，HanNLP。

当jieba本身词库中没有一些我们想要的词组的时候，他会把你原想要的词组也给拆了，比如上图中的“贪心学院”我们不想把他给拆分，这是就可以用“jieba.add_word(“贪心学院”)”语句把我们不想分割的词组添加进去。

分词的算法

1.最大匹配算法

1）前向最大匹配（forward-max matching）

先定义一个max_len最大的滑动长度，上图中例子定义为5，然后再例句中以5为单位进行选择词组，然后将这个词组依次和词典中的词语进行匹配，匹配一致的时候进行分割，就这样一致循环到句子结束。

2）后向最大匹配（backward-max matching）

后向匹配和前向匹配的过程类似，前向匹配从前到后，那后向匹配就是从后到前，算法过程和前向匹配差不多，不再赘述。

最大匹配算法的缺点：最大匹配算法是贪心的，只能达到局部最优；效率和时间复杂度取决于max_len，算法只能看到单词，不能考虑语义。

2.考虑语义的算法

算法思路：输入一个句子，生成所有可能的分割，然后利用“工具”选择其中一个最好的。其中在NLP中这个工具最经典的就是Language Model（语言模型）。

Language Model：可以计算出每个分割的概率，返回概率最大的那一项。概率具体计算过程：统计每个单词出现的频率，然后根据独立得出每个单词的概率，然后再相乘。下图为举的例子。

上图中的概率相乘会出现一个问题，如果每个概率都很小，相乘会越来越小，会超出double或者float型的范围，产生溢出问题。为了解决这个问题，在概率前取log即可，让乘法变加法，如下图：

算法缺点：复杂度太高。

解决办法：维特比算法

取-log是因为习惯性的找最小，每一条路径是分词的路径，想要的路径是路径之和最小的那个路径。

下面问题就转换为解决最短路径的问题，核心是动态规划，即是把一个大的问题拆分为若干个小的子问题。采用一个一维数组把每个节点的数值存进去，这样避免重复计算，需要哪个节点的值直接取出来即可，这样大大减少了复杂度。

2、Spell Correction（拼写错误纠正）

在词典中进行循环，找出与输入的编辑距离最小的单词。根据动态规划算法计算出编辑距离：

上图中在词典中循环的方法时间复杂度很高，另一个新的方法可以解决这个问题：用户输入单词后，生成与此单词编辑距离为1和2的字符串，然后通过条件过滤，最后选择出最合适的字符串。

3、Filtering Words

把停用词以及出现频率很低的词汇过滤掉。

Stemming：one way to normalize，但是此方法并不能保证把单词转换为有效的原型，比如fly和flies可能转换为fli。

猜你喜欢

转载自blog.csdn.net/Exception_3212536934/article/details/124442355

NLP（一）——文本处理

NLP的文本处理

NLP中文短文本处理记录（一）

NLP——文本处理预处理

NLP文本处理流程

文本处理

NLP笔记 --- 2.文本处理

04[NLP训练营]文本处理（下）

03[NLP训练营]文本处理（上）

NLP项目-文本处理的流程分析

NLP(3): 问答系统介绍，文本处理流程

达观杯文本处理（一）

linux的文本处理（一）

Editplus文本处理

文本处理实例

文本处理——排序

文本处理-linux

文本处理awk

富文本处理

awk文本处理

文本处理总结

简单的文本处理

智能文本处理

linux 文本处理

Linux——文本处理

文本处理notes

CSS文本处理

Shell的文本处理

shell文本处理

Python文本处理

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)