python自然语言处理——3.6 规范化文本 - 代码天地

python自然语言处理——3.6 规范化文本

其他 2019-02-24 16:04:44 阅读次数: 0

微信公众号：数据运营人
本系列为博主的读书学习笔记，如需转载请注明出处。

第三章加工原料文本

3.6 规范化文本词干提取器词形归并

3.6 规范化文本

词干提取器

所谓的词干提取器就是去除词缀得到词根的过程——得到单词最一般的写法。对于一个词的形态词根，词干并不需要完全相同；相关的词映射到同一个词干一般能导到满意的结果，即使该词干不是词的有效根。例如 “stemmer”、“stemming”和“stemmed”是基于词根“stem”。

import nltk
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
... is no basis for a system of government. Supreme executive power derives from
... a mandate from the masses, not from some farcical aquatic ceremony."""
tokens = nltk.word_tokenize(raw)
# porter和Lancaster词干提取器按照它们自己的规则剥离词缀
porter = nltk.PorterStemmer()
lancaster = nltk.LancasterStemmer()
print([porter.stem(t) for t in tokens])
print([lancaster.stem(t) for t in tokens])

词形归并

WordNet词形归并器删除词缀产生的词都是在它的字典中的词。这个额外的检查过程使词形归并器比刚才提到的词干提取器要慢。请注意，它并没有处理“ lying”，但它将“ women” 转换为“ woman”。
```python
wnl = nltk.WordNetLemmatizer()
print([wnl.lemmatize(t) for t in tokens])

猜你喜欢

转载自www.cnblogs.com/ly803744/p/10426396.html

python自然语言处理——3.6 规范化文本

自然语言处理（二十）：Transformer规范化层

python3.6 抓取网页文本并实现词频统计-自然语言处理小项目

python 规范化目录

4.文本规范化处理

文本规范化

Python自然语言处理实战（7）：文本向量化

自然语言处理 | (19) Python中文文本表示

Python库之自然语言处理和文本挖掘

nltk:python自然语言处理三标准化

自然语言处理---文本预处理

Python之规范化编程

Python开发之规范化目录

python之规范化使用（一）

企业规范化Python开发流程

自然语言处理-文本分类

自然语言处理—文本情感分析

自然语言处理——文本分类

文本识别（自然语言处理，NLP）

自然语言处理——文本的表示

开发规范小白进阶 python代码规范化

快商通携手工信部信通院打造“自然语言处理测评标准”，推动对话式AI产品规范化

python3.6.5 路径处理与规范化

python自然语言处理——3.2 字符串：最底层的文本处理

python自然语言处理——3.3 使用Unicode进行文本处理

用Python进行自然语言处理 - 语言计算：文本和单词

自然语言处理：文本预处理、语言模型、RNN

对于噪声数据理解以及Min-Max 规范化和 Score规范化(零-均值规范化)的实例【数据预处理】

【数据分析】数据预处理—最小-最大规范化、z-score规范化、小数定标规范化

【Python入门系列】第十八篇：Python自然语言处理和文本挖掘

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)