Word2vec 模型理解 - 代码天地

Word2vec 模型理解

其他 2018-07-01 16:09:29 阅读次数: 0

通过倒叙的方式讲解word2vec训练词向量的过程, 满足浮躁的初学者理解模型

目标

明确我们的目标, 我们希望能够在给定的大量的文档, 学习出文档中每个词的词向量. 这里对词向量训练好坏的最直观的标准是:

具有相似上下文的词, 它们的词向量越相近

粗糙的流程

训练数据

对于文档中的每个目标词, 我们找出它的上下文, 并且与目标词分别匹配生成一组词对, 例如:

怎样和 程序猿 谈一场不散场的爱情

这句话中, 假设我们选择程序猿为目标词时, 能够获得下列词对(考虑到训练量问题, 我们需要设置一个上下文的范围,这里我们这是为两个词)

(程序猿, 怎样)
(程序猿, 和)
(程序猿, 谈)
(程序猿, 一场)

这里,目标词程序猿就是模型的输入, 程序猿的上下文就是模型的输出.
当然, 我们需要将句子中的每个词都作为目标词重复一次以上步骤, 这样我们就可以得到一堆训练数据了
这就是所谓的Skip-Gram模型

模型

图片来源: http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
在训练模型前, 我们需要建立一个词典

就是把所有训练文档中出现的词放到一个集合里面(注意集合的概念),
给集合里面每个词排序,确定每个词的序号

onehot: 一个长度为n的数组，只有一个元素是1.0，其他元素是0.0。
例如在n为4的情况下，标签2对应的onehot标签就是 0.0 0.0 1.0 0.0

然后把每个词的词序转为one hot形式, 假如字典有10000个词, 则one hot的长度为10000, 需要对应的位置的值设置为1.0

扫描二维码关注公众号，回复： 1821016 查看本文章

来自为知笔记(Wiz)

猜你喜欢

转载自www.cnblogs.com/JohnRain/p/9250296.html

Word2vec 模型理解

理解Word2Vec

Word2Vec理解

word2vec的理解

word2vec 理解

理解 word2vec

Word2Vec模型

Word2Vec原理解析

word2vec理解与源码整理

Word2vec的推导及理解

word2vec的通俗理解

word2vec 几点理解

word2vec参数理解

word2vec 学习和理解

通俗理解word2vec

Word2vec理解推导

如何通俗理解word2vec

Word2Vec模型总结

word2vec模型评估方案

Word2Vec模型增量训练

Word2vec之CBOW 模型

Word2vec模型复现与PYTHONHASHSEED

对word2vec skip-gram模型的理解

理解 Word2Vec 之 Skip-Gram 模型

（三）Word2vec -- 2 基于Hierarchical Softmax的模型

word2vec中对于Negative Sampling的理解

word2vec: 理解nnlm, cbow, skip-gram

对学习/理解 Word2Vec 有帮助的材料

（一）理解word2vec：原理篇

通俗易懂的word2Vec负采样理解

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)