词向量可视化,Embedding projector实现——基于维基中文语料库

本文词向量训练过程参考如下博客:
https://blog.csdn.net/svenhuayuncheng/article/details/78751311

按照该文的步骤得到一个wiki.zh.text.vector文件,用txt打开,可见如下数据:
训练好的词向量文件,478328为词的个数,100为词向量维度
其中478328是词的个数,100是词向量的维度(在训练的时候自己设定),每一个词后的100个数是该词的词向量。下面将其进行可视化,利用的工具是Embedding projector,网址如下:
https://projector.tensorflow.org/

在这里插入图片描述
左边红框是传数据的地方,第一步是传入向量数据,第二步是传入列标签,也就是词,注意这里传入的数据格式必须是tsv(可以去微软商店下载一个tsv编辑器,32块)。转换数据格式的步骤如下:

首先,将用记事本打开后的词向量复制到excel,用空格进行分列。将第一列词复制到一个新的excel文件,将词向量保存为文本文件(制表符分隔)(*.txt),然后将后缀改为tsv。

其次,将第一列词复制到一个新建的txt文件,保存的时候编码格式选择utf-8格式。然后将其后缀改为tsv。

最后,将得到的两个tsv文件传入Embedding projector即可。

得到的可视化结果如下:

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_44081621/article/details/86323858