词的数字化表示方法和词嵌入

在这里插入图片描述
在这里插入图片描述
独热编码无法理解同义词之间的相关性
在这里插入图片描述
相关性通过词嵌入解决
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

通常就像迁移学习一样,用别人训练好的来进行词嵌入。自己训练要较好的
在这里插入图片描述
如果想要中文问本可以取最后一个
在这里插入图片描述
先用具体数字代表数字,只是离散的id号,如果用这种id做特征向量不利于做相似度计算。词编变成了词索引向量,利用词嵌入技术,转为四维向量

在这里插入图片描述

发布了314 篇原创文章 · 获赞 23 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_39289876/article/details/105027573
今日推荐