使用GloVe训练中文语料

0.安装gcc

在运行前务必确保ubuntu下有gcc

gcc --version
# 如果没有则安装:
yum install gcc

1.准备语料

准备好语料并进行分词,保存glove_corpus文件

2.下载源码

https://github.com/stanfordnlp/GloVe

解压文件夹,将语料glove_corpus放入到GloVe的主文件夹下。

3.修改bash

打开demo.sh,修改相应的内容

因为demo默认是下载网上的语料来训练的,因此如果要训练自己的语料,需要注释掉:

修改参数设置,将CORPUS设置成语料的名字

另,根据网上的资料显示vector_size=300和window_size=8时效果最佳

注:由于我修改是用的写字板修改,后续在linux shell 报错 bash:$'\r': command not found:

解决方案:

# step1:安装 dos2unix
yum install dos2unix -y
# step2:
dos2unix demo.sh

4.执行bash文件

进入到主文件夹下:

make

bash demo.sh

LINK

训练GloVe中文词向量

Ubuntu下GloVe中文词向量模型训练

猜你喜欢

转载自blog.csdn.net/imsuhxz/article/details/87798501
今日推荐