独热编码无法理解同义词之间的相关性
相关性通过词嵌入解决
通常就像迁移学习一样,用别人训练好的来进行词嵌入。自己训练要较好的
如果想要中文问本可以取最后一个
先用具体数字代表数字,只是离散的id号,如果用这种id做特征向量不利于做相似度计算。词编变成了词索引向量,利用词嵌入技术,转为四维向量
词的数字化表示方法和词嵌入
猜你喜欢
转载自blog.csdn.net/weixin_39289876/article/details/105027573
今日推荐
周排行