word2vector - 代码天地

word2vector

其他 2018-05-01 20:58:01 阅读次数: 4

详细介绍链接在此

skip-gram模型的简单介绍

skip-gram模型简单来讲就是在一大段话中，我们给定其中一个词语，希望预测它周围的词语，将词向量作为参数，通过这种方式来训练词向量，最后能够得到满足要求的词向量。而一般来讲，skip-gram模型都是比较简单的线性模型。

我们先假定有10000个单词，用one-hot-vector表示每一个。所以输入为batch*10000。输出也是batch*10000矩阵，是一个概率矩阵。

如果输入的vector代表单词ant，输出的one hot vector 中的第n个（如 mask）value，表示的是 mask 出现在ant 周围的概率。

构建的模型很简单，只有一层hidden layer。而且hidden layer没有激活函数。输出层的激活函数是softmax。

为什么输入形式为one hot vector呢？下面举一个简单的 1*5vector的例子/

输入向量乘 weight矩阵相当于在weight矩阵中选取了其中一行，那么hidden layer的weight matrix 是不是可以看作word vector 的查找表呢？也就是说 hidden layer 表示的是这10000个单词所对应的300个feature。

如果输入时 “ants”。说经过hidden layer 之后，输出到输出层的就是 ants 的300个features 了。如下图所示，所以ants的feature再与输出层的 car feature 相乘再softmax，就变成了 car出现在 ants 周围的概率。

所以如果两个单词意思相近，那么他们输出的概率向量应该是相似的。

猜你喜欢

转载自www.cnblogs.com/nzmx123/p/8977389.html

word2vector

word2vector 2

tutorial on word2vector

Spark word2vector

WordEmbedding之Word2Vector

Word2Vector 中的 Hierarchical Softmax

word2vector & paragraph2vector 技术分享

learn word2vector from scratch -- part 2

w2v讲解详细 word2vector

word2vector从参数解释到实战

词向量之Word2vector原理浅析

learn word2vector from scratch -- part 4

learn word2vector from scratch -- part 3

learn word2vector from scratch -- part 1

NLP -- Word2Vector 深入学习

word2vector 讲的比较好的文章

Word2vector在Gesim中应用的简单认识

tensorflow之综合学习系列实例之Word2Vector

word2vector原理之—（四）基于Hierarchical softmax的模型

在中文大语料库上训练word2vector

python word2vector训练wiki中文文本语料

深度学习必须熟悉的算法之word2vector（一）

使用训练好的word2vector进行文本聚类

将glove预训练词向量转为word2vector形式

深入浅出Word2Vector原理解析

python中用gensim做wiki的中文数据word2vector处理

【字节面试】word2vector输出多少个类别

第六章（1.2）自然语言处理实战——打造属于自己的中文word2vector工具

word2vect实战

word2vect 源码

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)