Word2vec之CBOW 模型

其他 2021-03-25 20:30:29 阅读次数: 0

Word2vec之CBOW 模型

CBOW模型流程举例

假设我们现在的语料库是这一个简单的只有四个单词的文本：
{我喜欢到处}
Step 1. 得到上下文词的one-hot向量作为输入，同时得到预期的输出one-hot向量(这个用来最后计算损失函数)。

Step 2. 输入层每个词的one-hot与权重矩阵W_VN相乘，得到对应的向量。(其实这就是对应词的词向量，矩阵的参数是网络通过训练得到的)。
V表示语料库中词的个数，即one-hot向量的维数是V。
N表示隐藏层神经元的数量，即希望最后得到的词向量维数为N。

得到每个词的词向量

Step 3. 将得到的三个向量相加求平均，作为输出层的输入。

Step 4. 将向量与输出层的权重矩阵U相乘，得到输出向量。

Step 5. 将softmax作用于输出向量，得到每个词的概率分布。

Step 6. 通过损失度量函数(如交叉熵)，计算网络的输出概率分布与预期输出onehot向量的之间损失值。通过这个损失值进行反向传播，更新网络参数。

经过上述步骤的多次迭代后，矩阵W就是词向量矩阵，每个词通过one-hot查询词向量矩阵就能得到其对应的词向量。

总结

先来看着这个结构图，用自然语言描述一下CBOW模型的流程：

1.输入层：背景词的one-hot向量。
2.隐藏层：所有one-hot分别乘以输入权重矩阵W，再将所得的向量相加求平均作为隐藏层向量。
3.输出层：隐藏层向量乘以输出权重矩阵W’ 。将softmax作用于输出向量，得到每个词的概率分布，概率最大的index所指示的单词为预测出的中心词。
它的隐藏层并没有激活函数，但是输出层却用了softmax，这是为了保证输出的向量是一个概率分布。

one-hot编码，就是有多少个不同的词，我就会创建多少维的向量。这样可能会造成维数爆炸。于是就出来了连续向量表示，word2vec就是将语料库中的词转化成向量，以便后续在词向量的基础上进行各种计算。word2vec的字、词向量，能够包涵语义信息，向量的夹角余弦能够在某种程度上表示字、词的相似度。

猜你喜欢

转载自blog.csdn.net/m0_45283671/article/details/112093319

Word2vec之CBOW 模型

Word2vec之CBOW word2vec原理(一) CBOW与Skip-Gram模型基础

Word2vec之CBOW模型和Skip-gram模型形象解释

word2vec模型cbow与skip-gram的比较 word2vec模型cbow与skip-gram的比较

NLP | Word2Vec之基于Negative Sampling的 CBOW 和 skip-gram 模型

NLP | Word2Vec之基于Hierarchical Softmax的 skip-gram 和 CBOW 模型

word2vec原理推导 word2vec原理(一) CBOW与Skip-Gram模型基础

word2vec原理(一) CBOW与Skip-Gram模型基础

word2vec原理CBOW与Skip-Gram模型基础

word2vec原理& CBOW与Skip-Gram模型基础

【深度学习】用Keras实现word2vec的CBOW模型

word2vec（一） CBOW与Skip-Gram模型基础

Word2Vec模型

word2vec之skip-gram模型

Word2vec 之 Skip-Gram模型

理解 Word2Vec 之 Skip-Gram 模型

Word2Vec模型之训练篇

Word2Vec模型之结构篇

漫谈Word2vec之skip-gram模型

初识-循环神经网络（RNN）原理 word2vec原理(一) CBOW与Skip-Gram模型基础

Word2Vec之CBOW详解

Word2vec 模型理解

Word2Vec模型总结

word2vec模型评估方案

Word2Vec模型增量训练

Word2vec模型复现与PYTHONHASHSEED

word2vec 两个模型,两个加速方法负采样加速Skip-gram模型层序Softmax加速CBOW模型

【自然语言处理与文本分析】word2Vec（有监督神经网络模型）的两个子模型skip-gram和CBOW模型。

论文解惑《word2vec Parameter Learning Explained》1.1--CBOW模型中One-word context情况公式推导问题

深度学习（二）：详解Word2Vec，从统计语言模型，神经网络语言模型（NNLM）到Hierarchical Softmax、Negative Sampling的CBOW和Skip gram

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)