NLP课程：Word2vec到FastText - 代码天地

NLP课程：Word2vec到FastText

其他 2020-04-09 08:40:52 阅读次数: 0

以下是我的学习笔记，以及总结，如有错误之处请不吝赐教。

之前的文章主要介绍了Word2vec的原理及应用，本文主要介绍从word2vec到FastText的发展。

NLP四大问题：

主要用到的模型有：

分类任务：文本分类/情感计算(常用模型CNN、朴素贝叶斯（伯努利贝叶斯、多项式贝叶斯、高斯分布贝叶斯参考）、svm).
序列标注：分词/POS Tag/NER/语义标注；(常用模型：RNN、LSTM、GRU)
关系判断:Entailment/QA/自然语言推理...
生成式任务：机器翻译/文本摘要...

CNN处理文本分类：主要有两种方式：

把文字表示成图：
把CNN做成1D：

FastText：

之前介绍word2vec的时候我们知道他有两种框架（参考）：

FastText就是在CBOW的框架上进行改进，实现文本分类，即对文本标签进行预测，其主要改进有两点：

N-gram特征：我们常用的特征是词袋模型。但词袋模型不能考虑词之间的顺序，因此 fastText 加入了 N-gram 特征。同时对特征进行Hash化，降低了运行需要的资源：
扫描二维码关注公众号，回复： 10615564 查看本文章
层次SoftMax:是建立在哈弗曼编码的基础上，对标签进行编码，极大地缩小模型预测目标的数量。：
fastText和word2vec的区别：主要体现在模型用途和+空间时间提速：
相同点：①图模型结构很像，都是采用embedding向量的形式，得到word的隐向量表达；②都采用很多相似的优化方法，比如使用Hierarchical softmax优化训练和预测中的打分速度。
不同点：①模型的输入层：word2vec的输入层，是 context window 内的term；而fasttext 对应的整个sentence的内容，包括term，也包括 n-gram的内容；②模型的输出层：word2vec的输出层，对应的是每一个term，计算某term的概率最大；而fasttext的输出层对应的是分类的label。不过不管输出层对应的是什么内容，起对应的vector都不会被保留和使用。

具体案例代码：欢迎关注我的github

To be continue......

张楚岚

发布了67 篇原创文章 · 获赞 16 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_42446330/article/details/85241044

NLP课程：Word2vec到FastText

自然语言处理——word2vec项目实战——从Word2Vec到FastText

从one-hot到word2vec再到FastText

Word2Vec和fasttext

fasttext原理及与word2vec的差异

[NLP] word2vec

NLP到Word2Vec 03 | Word2vec应用案例

NLP到Word2Vec 02 | Word2Vec理论基础

NLP从词袋到Word2Vec的文本表示

NLP入门（1）— 从NNLM到Word2Vec

NLP探索：一、从Word2vec到Bert

实战1：NLP到word2vec

NLP之——Word2Vec详解

NLP之word2vec

【NLP】Word2vec简介，入门

NLP（一）Word2Vec原理

NLP笔记(1)——word2vec

NLP之Word2Vec详解

NLP入门（三）word2vec

word2vec、glove和 fasttext 的比较

deep_learning 05. word2vec and fasttext

Word2Vec、GloVe、Fasttext等背后的思想简介

NLP到Word2Vec 01 | NLP理论基础

NLP课程：词向量到Word2Vec理论基础及相关代码

NLP进阶之（六）Word2Vec+FastText+Glove

[NLP] 秒懂词向量Word2vec的本质+word2vec资源总结

NLP的游戏规则从此改写？从word2vec, ELMo到BERT

NLP预训练之路——从word2vec, ELMo到BERT

NLP预训练模型综述：从word2vec, ELMo到BERT

NLP系列2：Word2Vec理论及实战

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)