【深度学习】120G+训练好的word2vec模型（中文词向量） - 代码天地

【深度学习】120G+训练好的word2vec模型（中文词向量）

其他 2019-01-10 21:43:17 阅读次数: 0

很多人缺少大语料训练的word2vec模型，在此分享下使用268G+语料训练好的word2vec模型。

训练语料：

百度百科800w+条，26G+
搜狐新闻400w+条，13G+
小说：229G+

image.png

模型参数：

window=5
min_count=10
size=128
hs=1
negative=0
iter=5
ps：其它参数见gensim库，执行代码为：gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)

其它相关：

分词词典使用了130w+词典。分词代码：jieba.lcut(sentence)，默认使用了HMM识别新词；
剔除了所有非中文字符；
最终得到的词典大小为6115353；
模型格式有两种bin和model，使用方式：

a. bin模型：


import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.bin',binary=True)
print(model['love'])

b. model模式：model = gensim.models.Word2Vec.load(model_path)

文件压缩后大小与未压缩相近，因此未压缩。

下载链接：
链接:https://pan.baidu.com/s/1ckkH_eT-WS4SN73Iq9Q_5A 密码:9aza

转载自：https://www.jianshu.com/p/ae5b45e96dbf

猜你喜欢

转载自blog.csdn.net/zkq_1986/article/details/84990426

【深度学习】120G+训练好的word2vec模型（中文词向量）

训练中文词向量 word2vec

Word2vec训练中文词向量

基于word2vec的中文词向量训练

使用word2vec训练中文词向量

word2vec训练好的词向量

word2vec 构建中文词向量

NLP：使用 gensim 中的 word2vec 训练中文词向量

Python Word2Vec使用训练好的模型生成词向量

『词向量』用Word2Vec训练中文词向量（二）—— 采用维基百科语料库

『词向量』用Word2Vec训练中文词向量（一）—— 采用搜狗新闻数据集

构建中文词向量总结【word2vec,gensim】

深度学习-nlp系列（4）：Word2Vec 字&词向量的训练和使用

word2vec训练词向量

[学习笔记]词向量模型-Word2vec

【不可思议的Word2Vec】 2.训练好的模型

word2vec训练中文语料

基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新

Word2Vec模型增量训练

使用python+gensim训练2g语料的word2vec向量

[zt]word2vec词向量训练及中文文本相似度计算

训练自己的中文word2vec（词向量）--skip-gram方法

word2vec词向量训练及中文文本相似度计算

【深度学习】word2vec（下）

NLP 利器 Gensim 来训练自己的 word2vec 词向量模型

NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置

word2vec词向量训练及gensim的使用

基于word2vec训练词向量(一)

基于word2vec训练词向量(二)

gensim中word2vec训练向量

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)