NLTK与NLP原理及基础 - 代码天地

NLTK与NLP原理及基础

其他 2018-07-26 01:10:22 阅读次数: 0

参考https://blog.csdn.net/zxm1306192988/article/details/78896319

以NLTK为基础配合讲解自然语言处理的原理 http://www.nltk.org/

Python上著名的自然语⾔处理库

自带语料库，词性分类库
自带分类，分词，等功能
强⼤的社区⽀持
还有N多的简单版wrapper，如 TextBlob

NLTK安装（可能需要预先安装numpy）

pip install nltk

　安装语料库

import nltk
nltk.download()

　　

NLTK自带语料库

>>> from nltk.corpus import brown
>>> brown.categories()  # 分类
['adventure', 'belles_lettres', 'editorial',
'fiction', 'government', 'hobbies', 'humor',
'learned', 'lore', 'mystery', 'news', 'religion',
'reviews', 'romance', 'science_fiction']
>>> len(brown.sents()) # 一共句子数
57340
>>> len(brown.words()) # 一共单词数
1161192

　　文本处理流程：

文本 -> 预处理（分词、去停用词） -> 特征工程 -> 机器学习算法 -> 标签

分词（Tokenize）

把长句⼦拆成有“意义”的⼩部件

>>> import nltk
>>> sentence = “hello, world"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['hello', ‘,', 'world']

　　中英文NLP区别：
英文直接使用空格分词，中文需要专门的方法进行分词

猜你喜欢

转载自www.cnblogs.com/elpsycongroo/p/9369171.html

NLTK与NLP原理及基础

NLTK——NLP流程

NLTK基础

01-NLP原理与基础

Pycharm nltk 实现简单的NLP功能

nltk模块基础操作

NLTK基础函数

【自然语言处理篇】--以NLTK为基础讲解自然语⾔处理的原理

自然语言处理（NLP）-NLTK入门学习（一）

自然语言处理（NLP）-NLTK入门学习（二）

自然语言处理（NLP）-NLTK入门学习（三）

自然语言处理（NLP）-NLTK入门学习（si）

NLP 产品可行性评价--Python\nltk

NLP（一）使用jieba、pyltp、pkuseg、nltk分词

【NLP】【报错】 - nltk.download()、Resource punkt not found

NLP基础

【NLP】基础：

NLTK

【NLP】NLP基础知识

自然语言处理基础——NLTK

[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理

NLTK和Stanford NLP两个工具的安装配置

Python NLTK结合stanford NLP工具包进行文本处理

自然语言处理NLP程序包（NLTK/spaCy）使用总结

【小沐学NLP】Python使用NLTK库的入门教程

【小沐学NLP】Python实现K-Means聚类算法（nltk、sklearn）

【小沐学NLP】Python实现TF-IDF算法（nltk、sklearn、jieba）

【NLTK基础教程】01-02 利用nltk统计词频

NLP 中的基础总结

NLP基础技能

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)