NLP(nature language processing)自然语言处理学习

书籍推荐:

Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems

一:名词认识

   1 Segmentation (分割 )句号 逗号等标点符号 把句子分隔开

   2 Tokenizing (标记化)

   3 Stop words(停用词) 比如was are and in 等类型的词语

   4 Stemming (提取词干)skipped skipping skips   都来自词语skip

   5 Lemmatization (词型还原)are am is 都是be动词

   6 speech tagging (词性)noum名词。vreb 动词。 preposition 介词

扫描二维码关注公众号,回复: 14631413 查看本文章

   7 Named entity tagging(命名实体标记)

二:language modeling (n-gram  RNN

     作用:预测下一个单词(比如谷歌搜索 输入一些单词以后 会根据下一个单词出现的可能性提示想查找的内容)

     49be59a3adf24fb9bf90688704f88f54.png5a7db61a0acd4192842622442e5a6cf1.png

RNN 模型的优缺点:

e442621d759d4efc81fa8950bccb3ae3.png

原始文本(raw  data) __

分词(segmentation)____

清洗(cleaning)无用的标点符号 特殊符号 停用词

标准化(nomalization)  stemming词干提取  lemmation 词型还原

特征提取(feature extraction)  tf-idf word2vec

建模(modeling) 相似度算法 分类算法

文本预处理

1:去除数据中的非文本部分

正则表达式删除不需要的符号标点:clearn = re.compile(‘<.*!@>’)

  1. 分词

英文:split()

中文:pip install jieba

2.去掉停用词

英文:安装nltk

中文:自己构造中文停用词表 1208个

3.英文单词

stemming词干提取  lemmation 词型还原

使用nltk的wordnet

4.英文单词转换为小写

word=word.lower()

5.特征处理

bag of words词袋模型(bow ,,  tf-idf)

n-gram语言模型(bigram, trigram)

word2vec分布式模型

RNN在NLP中的使用(Recurrent Neural Network)

原文参考:https://zhuanlan.zhihu.com/p/40797277

区别与N-gram RNN可以看到整个句子的前后,而2-gram。3-gram 等等只能看到一个句子的局部,所以误差比较大。

基本循环神经网络

输入层—隐藏层—输出层   可以往前看任意个输出值

0c8fe323743548238947dd1254520cf1.png

传统的神经网络(包括CNN),输入和输出都是相互独立的,例如一张图片的猫和狗是分隔开的,但是有些任务后续输出和之前的内容是相关的,局部的信息不足以使得后续的任务能够进行下去。RNN是需要之前或则之前序列的信息才能够使得任务进行下去的神经网络。RNN引入‘记忆’的概念,循环2字来源于其每个元素都执行相同的任务,但是输出依赖于输入和‘记忆’。其结构如下图所示:

37ab55bb6af946beb6aa259482ec297a.png

31474e79cec14b01a59d6395a17c3e9c.png

637c82bb73c0491b8b17d5aa1a4b01ee.png

双向循环神经网络(英语完形填空不仅取决于前面的单词也取决于后面的单词)

42b4f91d12d14dc89a572de6c818a302.png

81e9ee6a734a4ef097293b0dfb893a80.png

深度循环神经网络隐藏层堆叠两个以上的隐藏层

5325a12c83544d0e8b007d4bb136c4dd.png

dde3d4d724ad42ff8f24b64868f70918.png

递归神经网络(Recursive Neural Network)

RNN实际效果与CNN差别不大,但训练速度比CNN慢太多

四:为什么在RNN中加入LSTM http:// https://zhuanlan.zhihu.com/p/40797277

随着时间间隔变大,RNN会丧失学习连接到很远的信息,也就是记忆容量有限,LSTM的记忆细胞被改造,应该记住的东西(如新输入的东西)会一直被传递下去,不该被记住的东西会被截断。

RNN细胞结构:

4192532bb3a0463a8cf3038631b0cac6.png

LSTM细胞结构:在RNN基础上加以改造

effe9ce488c34a89a99da7f99bac5962.png

060c1789d61e47a489a9c4884e40859c.png

第一步:forget 

a5d11224cd114c6bb19175506142211c.png

第二步:update

ec2494b7854c41b797752154268d92f3.png

第三步:output 

8ef4930585e34fe8a9ca1d09432f34ab.png

 LSTM的几个变体

a4f3bae0c0694a82a9fa8d12bbd7d094.png48930a68450d42d48a343ff2440ba92d.png

f174e1bab0fa4e539e96d013c56a7648.png

    

猜你喜欢

转载自blog.csdn.net/wcc960828/article/details/125052116