[ NLP ] CS224N 学习笔记

Lecture1

One-Hot

定义:用N位状态寄存器编码N个状态,每个状态都有独立的寄存器位,且这些寄存器位中只有一位有效,说白了就是只能有一个状态。即保证每个样本中的每个特征只有1位处于状态1,其他都是0。
缺点:词汇的延展性导致词库是无穷多的;两两向量正交,无法表示两个词汇之间的相似性。

Solution

分布式语义:观察上下文,理解语义。
word vector : 也可以叫做word embedding 或者word representation。
每个词用向量表示,可以有n维,最低下限是50。其每一维代表某种意思,这样在坐标轴上显示时,意思想尽的词汇会相互靠近,反之远离。

猜你喜欢

转载自www.cnblogs.com/recoverableTi/p/12301006.html