python word2vector训练wiki中文文本语料 - 代码天地

python word2vector训练wiki中文文本语料

编程语言 2018-10-24 01:04:09 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/majinlei121/article/details/83210890

前两篇文章对wiki中文语料进行下载（wiki中文文本语料下载并处理 ubuntu + python2.7）和分词（python wiki中文语料分词），本篇使用word2vector训练词向量，训练程序为

# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')

import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, io


logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 
sentences = word2vec.Text8Corpus(u"wiki_seg.txt")
if os.path.exists("./wiki_model"): 
  model = word2vec.Word2Vec.load('./wiki_model') 
else: 
  #这里迭代次数iter默认为5，我使用的是100，生成size=100维词向量，出现少于min_count=5次的词忽略
  model = word2vec.Word2Vec(sentences, min_count=5, size=100, iter=100)
  model.save("./wiki_model")

#下面是测试生成的模型
y = model.most_similar(u'男孩', topn = 10)
for item in y:
  print '和男孩最相似的是： ', item[0], item[1]
print '--------------------------------------'
y = model.most_similar(u'足球', topn = 10)
for item in y:
  print '和足球最相似的是： ', item[0], item[1]
print '--------------------------------------'
print model[u'早餐']

训练100次大约用了6个小时，下面是训练截图
在这里插入图片描述
训练完成后会生成三个文件，如下图

测试输出结果为

猜你喜欢

转载自blog.csdn.net/majinlei121/article/details/83210890

python word2vector训练wiki中文文本语料

python中用gensim做wiki的中文数据word2vector处理

wiki中文文本语料下载并处理 ubuntu + python2.7

wiki中文文本语料下载，在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

在中文大语料库上训练word2vector

python wiki中文语料分词

word2vec 训练中文wiki语料

Windows下基于python3使用word2vec训练中文维基百科语料(二)

Windows下基于python3使用word2vec训练中文维基百科语料

Windows下基于python3使用word2vec训练中文维基百科语料(三)

word2vector

使用训练好的word2vector进行文本聚类

使用python+gensim训练2g语料的word2vec向量

word2vector 2

【python gensim使用】word2vec词向量处理中文语料

tutorial on word2vector

Spark word2vector

wiki中文语料的word2vec模型构建

word2vec训练中文语料

[Python人工智能] 二十一.Word2Vec+CNN中文文本分类详解及与机器学习（RF\DTC\SVM\KNN\NB\LR）分类对比

基于word2vec使用wiki中文语料库实现词向量训练模型--2019最新

如何用Python和机器学习训练中文文本情感分类模型？

python读入中文文本编码错误

【NLP】Python中文文本聚类

利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块

win7 python3.5 采用gensim训练word2vec，生成wiki.zh.text.model

WordEmbedding之Word2Vector

Word2Vector 中的 Hierarchical Softmax

将glove预训练词向量转为word2vector形式

python之获得文本语料和词汇资源（2）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)