14、【李宏毅机器学习（2017）】Unsupervised Learning: Word Embedding（无监督学习：词嵌入）

企业开发 2018-08-31 20:11:15 阅读次数: 0

上一篇博客介绍了无监督学习中的线性降维方法，本篇博客将继续介绍无监督学习在文字中的降维方法——Word Embedding。

目录

Word Embedding
- Word Embedding介绍
- 利用上下文
  - Count based
  - Perdition based

Word Embedding

Word Embedding介绍

Word Embedding希望通过训练大量的材料（结合上下文关系），将词汇描述成一个向量。

一种最简单的词汇描述成向量的方法就是1-of-N Encoding方法，假设现在世界上只有下面5个单词，则可以使用5维的向量分别表示一个词汇，但是这种方法不能描述向量之间的关系
因此在此基础上进行词汇归类
但是直接归类的方法很粗糙，所以进一步提出了Word Embedding方法，每一个词汇用多个维度描述

这里写图片描述

$\quad$

利用上下文

利用上下文来推断词汇的关系有两种主要的思路——Count based和Perdition based。

Count based

Count based寻找词汇向量 $V(\cdot )$ 的思路就是如果 $w_i,w_j$ 两个词汇经常一起出现，则两者的词汇向量 $V(w_i),V(w_j)$ 应该很接近。算法执行就是让的 $V(w_i),V(w_j)$ 内积和两个词汇出现在同一篇文章中的次数 $N_{ij}$ 接近，从而找到 $V(\cdot )$ 。
这里写图片描述

$\quad$

Perdition based

Perdition based即预测词汇出现后的下一个词汇，如下例。
这里写图片描述

使用神经网络模型实现算法如图：
这里写图片描述

直观地举例理解，对于这个例子，“蔡英文宣誓就职”和“马英九宣誓就职”，我们希望不管输入“蔡英文”还是“马英九”，“宣誓就职”这一词汇都有比较大的概率，因此得出来的 $V(\cdot )$ 函数空间里“蔡英文”和“马英九”两个向量点应该是很接近的：
这里写图片描述

现在考虑到前面两个词汇 $w_{i-1},w_{i-2}$ ，为了减少参数过多，令 $W_1=W_2$ 。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Jimmyzqb/article/details/82180871

14、【李宏毅机器学习（2017）】Unsupervised Learning: Word Embedding（无监督学习：词嵌入）

李宏毅机器学习笔记-14：Unsupervised Learning：Word Embedding

15、【李宏毅机器学习（2017）】Unsupervised Learning: Neighbor Embedding（无监督学习：邻域嵌套）

李宏毅学习笔记14.Unsupervised Learning: Word Embedding

李宏毅机器学习课程笔记5：Unsupervised Learning - Linear Methods、Word Embedding、Neighbor Embedding

李宏毅机器学习课程笔记5：Unsupervised Learning - Linear Methods、Word Embedding、Neighbor Embedding 李宏毅机器学习课程笔记5：Unsupervised Learning - Linear Methods、Word Embedding、Neighbor Embedding

13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

[李宏毅-机器学习]无监督学习 unsupervised learning

16、【李宏毅机器学习（2017）】Unsupervised Learning: Deep Auto-encoder（无监督学习：深度自动编码器）

12、【李宏毅机器学习（2017）】Semi-supervised Learning（半监督学习）

李宏毅机器学习笔记-15：Unsupervised Learning：Neighbor Embedding

Unsupervised Learning: Word Embedding

李宏毅ML lecture-14 unsupervised Learning--Word Embeddng

李宏毅机器学习课程笔记6：Unsupervised Learning - Auto-encoder、PixelRNN、VAE、GAN

李宏毅机器学习笔记-13：Unsupervised Learning: Principle Component Analysis

【(强推)李宏毅2021/2022春机器学习课程】Unsupervised Learning - Linear Methods

学习词嵌入（Learning Word Embeddings）

Unsupervised Learning 无监督学习

Unsupervised learning无监督学习

机器学习笔记——无监督学习（unsupervised learning）

[李宏毅-机器学习]半监督学习 semi-supervised learning

李宏毅机器学习笔记-12：Semi-supervised Learning半监督学习

6、【李宏毅机器学习（2017）】Brief Introduction of Deep Learning（深度学习简介）

9、【李宏毅机器学习（2017）】Tips for Deep Learning（深度学习优化）

11、【李宏毅机器学习（2017）】Why Deep Learning? （为什么是深度学习？）

李宏毅机器学习课程笔记6：Unsupervised Learning - Auto-encoder、PixelRNN、VAE、GAN 李宏毅机器学习课程笔记6：Unsupervised Learning - Auto-encoder、PixelRNN、VAE、GAN

【笔记】机器学习 - 李宏毅 - 14 - Semi-supervised Learning

李宏毅机器学习——学习笔记（8）Deep Learning

[李宏毅-机器学习]迁移学习 transfer learning

[Machine Learning] 机器学习路线-李宏毅

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)