《自然语言处理》- 第一章 - 代码天地

《自然语言处理》- 第一章

企业开发 2019-05-15 14:24:33 阅读次数: 0

1.基础概念和接口

import nltk
from nltk.book import *

#查看一下text的数据类型
type(text2)

可以看到book中把各种文章都打包到下面的类中了：

<class 'nltk.text.Text'>

那再看下此类的方法

dir(nltk.text.Text)

collocation_list
collocations
common_contexts
concordance
concordance_list
count
dispersion_plot
findall
generate
index
plot
readability 
similar
unicode_repr
vocab

text1.concordance("very") #实际就是找出包含very单词的句子
text2.similar("kind") #找出text2中与单词kind相似的词汇，测试了几次，
#发现是从词汇的属性（名词，形容词，副词等）和意思来做判断的，有时候会出现一些莫名其妙的词汇

text4.common_contexts('very') #也可以传入字符串数组

text2.dispersion_plot(['name','people']) #查看参数中的单词在文章中的分布

text3.generate() #这个接口在NLTK2.0中还可以使用，NLTK3.0后需要传入参数

Text类是一个类似于列表的存在，可以使用操作列表的那套方法来操作Text类，例如：

len(text2)
set(text2)
text2.index('hate')
sorted(text4)

bigrams() 2.0版本返回一个元组列表，3.0是一个生成器

fdist = FreqDist(samples) #创建包含给定样本的频率分布
fdist.inc(sample) #增加样本
fdist['monstrous'] #计数给定样本出现的次数
fdist.freq('monstrous') #给定样本的频率
fdist.N() #样本总数
fdist.keys() #以频率递减顺序排序的样本链表
for sample in fdist: #以频率递减的顺序遍历样本
fdist.max() #数值最大的样本
fdist.tabulate() #绘制频率分布表
fdist.plot()# 绘制频率分布图

词意消歧：算出特定上下文中的词被赋予了哪个意思。

指代消解：确定代词或者名词短语指的是什么

语义角色标注：确定名词短语如何与动词相关联

猜你喜欢

转载自www.cnblogs.com/l00p/p/10867946.html

《Python自然语言处理》第一章

Python 自然语言处理第一章

《自然语言处理》- 第一章

Python自然语言处理第一章函数总结

《Python自然语言处理》第一章笔记

利用Python进行自然语言处理（笔记）第一章

python自然语言处理第一章答案

第一章 1、1 自然语言处理概论

第一章 1、2自然语言处理概论（续）

人人都懂ChatGPT序列第一章：ChatGPT 与自然语言处理

自然语言处理: 第一章N-Gram

自然语言处理（一）

自然语言处理——（一）语言模型

自然语言处理——语言模型(一)

C语言第一章

深度学习与自然语言处理（一）

nltk：python自然语言处理一

自然语言处理NLP（一）

python自然语言处理（一）

自然语言处理学习笔记（一）

自然语言处理(一)NLP概述

初识NLP 自然语言处理（一）

统计自然语言处理基础（一）

自然语言处理（NLP）入门（一）

NLP自然语言处理（一）

机器学习——自然语言处理（一）

深度学习——自然语言处理（一）

自然语言处理(一)：词嵌入

【Python自然语言处理】第一章学习笔记——搜索文本、计数统计和字符串链表

第一章-语言处理与Python

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)