ElitesAI·动手学深度学习PyTorch版学习笔记-文本预处理；语言模型；循环神经网络基础 - 代码天地

ElitesAI·动手学深度学习PyTorch版学习笔记-文本预处理；语言模型；循环神经网络基础

其他 2020-02-25 19:21:16 阅读次数: 0

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！

1 文本预处理
1.1 概念
文本处理是机器学习的一个热点和难点。这一小节主要介绍的是计算机处理文本的第一步骤–文本预处理。预处理工作相对较简单，包括读入、分词、建立字典、转换为索引序列4个步骤。即把文本从按照自然语言思维的组织形式，转换为计算机易于识别的字典索引形式。
课程以H. G. Well的Time Machine（感谢Protect.Y同学的文本分享！）为例，通过代码展示文本预处理的具体过程。
1.2 手工实现
在读入文本的阶段，可以对文件进行一些初步的处理，比如分行，去掉非文本的符号等。
代码实现了按行读入文本、使用正则表达式将一些非文本的符号替换为空格，并通过打印出行数来验证文件读取是否有效。
接下来使用split函数，通过检索空格，将句子切分成一个一个单词，并以列表形式保存下来。这一过程被叫做分词。
建立字典就是词频统计过程，用了pad、bos、eos、unk四类标签来给次做初步的分类，然后使用collections中的counter类来跟踪每个词出现的次数，并以字典的键值对形式存储下来。
现在字典已经建立，可以通过下标地址索引来查看单词和词频。
P.S.之前自己使用set来去重然后统计，这次发现了counter，方便好用多了~
1.3 现有分词工具
实际上，python中提供了很多很好的工具来实现分词，比如spaCy和NLTK。使用现有模块可以很好地解决称呼和is、not省写等问题。直接简单粗暴地将整个文本塞给相应的函数，就可以自动分词了。
P.S.使用过一个很聪明很强大的中文分词模块“jieba”，还可以切分粤语歌词，哈哈~

liuyi6111

发布了6 篇原创文章 · 获赞 0 · 访问量 196

私信关注

猜你喜欢

转载自blog.csdn.net/liuyi6111/article/details/104316002

ElitesAI·动手学深度学习PyTorch版学习笔记-文本预处理；语言模型；循环神经网络基础

《动手学深度学习》笔记 Task02：文本预处理；语言模型；循环神经网络基础

动手深度学习 task2(文本预处理+语言模型+循环神经网络）

ElitesAI·动手学深度学习PyTorch版学习笔记-卷积神经网络基础；leNet；卷积神经网络进阶

ElitesAI·动手学深度学习PyTorch版学习笔记-过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

动手学深度学习Task01-Task02:线性回归；Softmax与分类模型；多层感知机；文本预处理；语言模型；循环神经网络

ElitesAI·动手学深度学习PyTorch版笔记（一）

深度学习基础2——文本预处理、语言模型、循环神经网络

【AI】《动手学-深度学习-PyTorch版》笔记（十九）：卷积神经网络模型（GoogLeNet、ResNet、DenseNet）

【AI】《动手学-深度学习-PyTorch版》笔记（十八）：卷积神经网络模型(LeNet、AlexNet、VGG、NiN)

ElitesAI·动手学深度学习PyTorch版学习笔记-线性回归；Softmax与分类模型、多层感知机

动手学深度学习（七、语言模型与循环神经网络）

【AI】《动手学-深度学习-PyTorch版》笔记（十七）：卷积神经网络入门

动手学习深度学习 | 语言模型和循环神经网络笔记

文本预处理 & 语言模型 & 循环神经网络基础

《动手学深度学习 Pytorch版》 7.1 深度卷积神经网络(LeNet)

动手学深度学习之循环神经网络

动手学深度学习——循环神经网络

《动手学深度学习》-55循环神经网络

动手学深度学习V2.0(Pytorch)——16. PyTorch 神经网络基础

《动手学深度学习》系列笔记 —— 文本预处理

《动手学深度学习 Pytorch版》 6.6 卷积神经网络

ElitesAI·动手学深度学习PyTorch版学习笔记-机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

动手学深度学习(PyTorch实现)(六)--卷积神经网络基础

ElitesAI·动手学深度学习PyTorch版学习笔记-批量归一化和残差网络；凸优化；梯度下降

MXNet动手学深度学习笔记：循环神经网络RNN实现

ElitesAI·动手学深度学习PyTorch版(第二次打卡)

ElitesAI·动手学深度学习PyTorch版Task06打卡

《动手学深度学习》系列笔记 —— 卷积神经网络基础

《动手学深度学习》笔记 Task05：卷积神经网络基础；leNet；卷积神经网络进阶

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)