训练GloVe中文词向量 - 代码天地

训练GloVe中文词向量

其他 2018-10-19 10:48:09 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weixin_37947156/article/details/83145778

准备语料

准备好自己的语料，保存为txt，每行一个句子或一段话，注意要分好词。

准备源码在这里插入图片描述

从GitHub下载代码，https://github.com/stanfordnlp/GloVe
将语料corpus.txt放入到Glove的主文件夹下。

修改bash

打开demo.sh，修改相应的内容

因为demo默认是下载网上的语料来训练的，因此如果要训练自己的语料，需要注释掉
在这里插入图片描述

修改参数设置，将CORPUS设置成语料的名字

在这里插入图片描述
执行bash文件

进入到主文件夹下

make
在这里插入图片描述

bash demo.sh
在这里插入图片描述

注意，如果训练数据较大，则训练时间较长，那么建议使用nohup来运行程序

1
nohup bash demo.sh >output.txt 2>&1 &
坐等训练，最后会得到vectors.txt 以及其他的相应的文件。如果要用gensim的word2ve load进来，那么需要在vectors.txt的第一行加上vacob_size vector_size，第一个数指明一共有多少个向量，第二个数指明每个向量有多少维。

参考

https://www.cnblogs.com/echo-cheng/p/8561171.html

猜你喜欢

转载自blog.csdn.net/weixin_37947156/article/details/83145778

训练GloVe中文词向量

Ubuntu下GloVe中文词向量模型训练

中文词向量训练

gensim中文词向量训练实战

glove训练词向量

中文词向量

使用 DL4J 训练中文词向量

训练中文词向量 word2vec

Word2vec训练中文词向量

基于word2vec的中文词向量训练

自然语言处理 | (20) 中文词向量训练

使用word2vec训练中文词向量

用维基百科训练中文词向量

Glove预训练词向量

使用GloVe训练中文语料

中文词向量论文综述

Bert 得到中文词向量

深度学习中文NLP任务实战（一）：中文词向量的训练

【深度学习】120G+训练好的word2vec模型（中文词向量）

基于Gensim的维基百科语料库中文词向量训练

【Python3】基于Gensim的维基百科语料库中文词向量训练

【Pytorch神经网络实战案例】39 jieba库分词+训练中文词向量

NLP：使用 gensim 中的 word2vec 训练中文词向量

『词向量』用Word2Vec训练中文词向量（二）—— 采用维基百科语料库

『词向量』用Word2Vec训练中文词向量（一）—— 采用搜狗新闻数据集

中文词向量论文综述（四）

中文词向量论文综述（三）

使用BERT获取中文词向量

极简使用︱Glove-python词向量训练与使用

使用github--stanfordnlp--glove训练自己的数据词向量

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)