NLP基础笔记5——词向量

其他 2019-03-23 17:11:02 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/IOT_victor/article/details/87914076

一、什么是词向量

词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。还有 Google 团队的 Word2Vec，值得一提的是，Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外，还有一些词向量的表示方式，如 Doc2Vec、WordRank 和 FastText 等。

二、Word2Vec

Google 团队的 Word2Vec，其主要包含两个模型：跳字模型（Skip-Gram）和连续词袋模型（Continuous Bag of Words，简称 CBOW），以及两种高效训练的方法：负采样（Negative Sampling）和层序 Softmax（Hierarchical Softmax）。

word2vec作为神经概率语言模型的输入，其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说，“某个语言模型”指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negative Sampling。两个模型乘以两种方法，一共有四种实现。

2.1 模型结构（CBOW和Skip-Gram）

两个算法：

Skip-grams (SG)：预测上下文
Continuous Bag of Words (CBOW)：预测目标单词

CS224n中的只讲到了Naive Softmax

Skipgram（以CS224n讲解为例）

wt ：以one-hot vector 形式输入的“中心词汇”

W ： 所有中心词汇的表示所组成的矩阵（第一个matrix）

Vc ：中心词向量，即中心词汇的表示

W' ：存储上下文的词汇表示（图中3个矩阵是相同的，只有一个上下文词汇矩阵W'）

W'.dot(Vc) ：得到对每个词语的“相似度”

Softmax ：给定一个中心词汇，作为生成模型，它可以预测在上下文中出现的词汇的概率，与答案对比计算损失

Note: Every word has two vectors! Makes it simpler!

从左到右是one-hot向量，乘以center word的W于是找到词向量，乘以另一个context word的矩阵W'得到对每个词语的“相似度”，对相似度取softmax得到概率，与答案对比计算损失。下图的官方版，一样的意思：

这两个矩阵都含有V个词向量，也就是说同一个词有两个词向量，哪个作为最终的、提供给其他应用使用的embeddings呢？有两种策略，要么加起来，要么拼接起来。在CS224n的编程练习中，采取的是拼接起来的策略。W中的向量叫input vector，W'中的向量叫output vector。

最小化负的对数似然项，使预测的概率最大化

2.2 训练方法（层次化softmax和负采样）

具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negative Sampling。两个模型乘以两种方法，一共有四种实现。

猜你喜欢

转载自blog.csdn.net/IOT_victor/article/details/87914076

NLP基础笔记5——词向量

【NLP】_03_基础词向量

【NLP篇-基础汇总】词向量表示比较

NLP学习笔记14---词向量(word-vector)

【NLP面试QA】词向量

NLP模型笔记2022-16：词向量与中文词向量论文综述

NLP(5): 停用词，文本的表示，文本的相似度，tf-idf，词向量

TensorFlow与NLP（词向量：skip-gram）

【NLP】词向量的惊人力量

NLP--词向量与相关应用(七)

【NLP】词向量之fastText原理

05[NLP训练营]词向量

nlp(1)skip-gram词向量

NLP课程：词向量到Word2Vec理论基础及相关代码

NLP︱高级词向量表达（二）——FastText（简述、学习笔记）

CS224斯坦福nlp课程学习笔记2-词向量

CS224n学习笔记1-nlp介绍和词向量

学习笔记：深度学习（5）——词向量的相关概念

学习笔记（一）__词向量

NLP(1) | 词向量one hot编码词向量编码思想

[NLP] 秒懂词向量Word2vec的本质

02-NLP-07-词向量及相关应用

NLP-词和文档向量化方法

NLP之分词、词向量、预训练篇

NLP学习（1）---Glove模型---词向量模型

PyTorch在NLP任务中使用预训练词向量

系统学习NLP（三十）--词向量对齐

NLP词向量模型总结：从Elmo到GPT,再到Bert

[NLP]高级词向量表达之ELMo详解

[NLP]高级词向量表达之WordRank详解

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)