自然语言处理：文本预处理、语言模型、RNN

其他 2020-02-14 16:17:32 阅读次数: 0

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

现有的工具可以很好地进行分词，spaCy和NLTK。

使用示例：

text = "Mr. Chen doesn't agree with my suggestion."
####spaCy:
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
print([token.text for token in doc])
['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']




####NLTK:
from nltk.tokenize import word_tokenize
from nltk import data
data.path.append('/home/kesci/input/nltk_data3784/nltk_data')
print(word_tokenize(text))
['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']

语言模型

一段自然语言文本可以看作是一个离散时间序列，给定一个长度为

P (w 1, w 2, \dots, w T) .

猜你喜欢

转载自www.cnblogs.com/bianque/p/12307730.html

自然语言处理：文本预处理、语言模型、RNN

自然语言处理---文本预处理

自然语言处理（二 RNN语言模型）

自然语言处理（NLP）学习笔记——RNN模型

Task 02- 文本预处理-语言模型-RNN基础

自然语言处理——（一）语言模型

【自然语言处理】语言模型

自然语言处理(三)语言模型

自然语言处理---语言模型

自然语言处理——语言模型

自然语言处理——语言模型(一)

自然语言处理中的几种文本预处理的写法总结

[NLPCamp]文本预处理常用技术介绍/自然语言处理

深度学习-自然语言处理(NLP)-文本预处理：命名实体识别(NER)

自然语言处理文本预处理（上）（分词、词性标注、命名实体识别等）

自然语言处理 | (15)使用Pytorch实现RNN(LSTM)语言模型

自然语言处理-文本分类

自然语言处理—文本情感分析

自然语言处理——文本分类

文本识别（自然语言处理，NLP）

自然语言处理——文本的表示

自然语言处理文本预处理（下）（张量表示、文本数据分析、文本特征处理等）

【自然语言处理】双语数据预处理

自然语言处理-中文语料预处理

【自然语言处理】RNN文本生成Python(纯Numpy)实现

自然语言处理

自然语言处理①

自然语言处理--信息模型

自然语言处理-主题模型

自然语言处理——CBOW模型

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)