【465】词干提取与词形还原 - 代码天地

【465】词干提取与词形还原

其他 2020-05-19 00:37:15 阅读次数: 0

　　词干（word stem）表示每个单词的主体部分。词干提取（stemming）就是提取词干的过程，通常是删除常见的后缀来实现。

　　词形还原（lemmatization）考虑了单词在句子中的作用，单词的标准化形式为词元（lemma）。

　　词干提取和词形还原这两种处理方法都是标准化（normalization）的形式之一，标准化是指尝试提取一个单词的某种标准形式。

　　对比一种词干提取的方法（Poter词干提取器，从 nltk 包导入）与 spacy 包中实现词形还原。

import spacy
import nltk

# 加载 spacy 的英语模型，可以分词
en_nlp = spacy.load('en')
# 将 nltk 的 Porter 词干提取器实例化
stemmer = nltk.stem.PorterStemmer()

# 定义一个函数来对比区别
def compare_normalization(doc):
    # 在 spacy 中对文档进行分词
    doc_spacy = en_nlp(doc)
    # 打印出 spacy 找到的词元
    print("Lemmatization:")
    print([token.lemma_ for token in doc_spacy])
    # 打印出 Porter 词干提取器找到的词例
    print("Stemming:")
    print([stemmer.stem(token.norm_.lower()) for token in doc_spacy])

compare_normalization(u"Our meeting today was worse than yesterday, "
                       "I'm scared of meeting the clients tomorrow.")

output:
Lemmatization:
['-PRON-', 'meeting', 'today', 'be', 'bad', 'than', 'yesterday', ',', '-PRON-', 'be', 'scared', 'of', 'meet', 'the', 'client', 'tomorrow', '.']
Stemming:
['our', 'meet', 'today', 'wa', 'wors', 'than', 'yesterday', ',', 'i', 'am', 'scare', 'of', 'meet', 'the', 'client', 'tomorrow', '.']

　　总结：词形还原效果更好。

猜你喜欢

转载自www.cnblogs.com/alex-bn-lee/p/12913945.html

【465】词干提取与词形还原

第2章文本的歧义及其清理（包括，分词，去除停用词，词干提取，词形还原等）

02 NLTK 分句、分词、词干提取、词型还原

token:NLP之词形还原

NLP（四）词形还原（Lemmatization）

nltk 单词还原为词干

信息组织与检索| 中英文自然语言处理词性还原与词干提取的区别 jieba分词

英文单词词形还原程序

NLP入门（三）词形还原（Lemmatization）

[NLP]OpenNLP词形还原器(Lemmatizer)的使用

python基础编程：Python自然语言处理之词干,词形与最大匹配算法代码详解

Python自然语言处理之词干,词形与最大匹配算法代码详解

自然语言处理-词干提取

【火炉炼AI】机器学习036-NLP词形还原

[搜索]波特词干（Porter Streamming）提取算法详解（3）

[搜索]波特词干（Porter Streamming）提取算法详解（2）

[搜索]波特词干（Porter Streamming）提取算法详解（1）

【火炉炼AI】机器学习035-NLP词干提取

Python自然语言处理—提取词干

波特词干（Porter Streamming）提取算法无代码单纯理解

StanfordCoreNLP: 英文句子词性还原、词干标注工具包简单使用（Java）

[学习记录]NLTK常见操作二（分句，分词，词干提取）

python ：中英文文本预处理（包含去标点分词词干提取）

python基础教程：在Python中使用NLTK库实现对词干的提取的教程

Java提取IPA中的png文件,并解码还原

NLP 文本分词标准化处理 -1.字母准变小写；2.缩写词展开；3.去除停用词；4.词干化和词性还原

自然语言处理-词干

zabbix邮件报警 465

NYOJ 题目465

UVA465 - Overflow

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)