基于doc2vec的文本聚类 - 代码天地

基于doc2vec的文本聚类

其他 2018-05-31 09:24:22 阅读次数: 0

使用gensim包中doc2vec工具预训练好的文档向量可以进行文本聚类，使用sklearn的KMeans工具载入预训练好的的文档向量设定簇数进行k-means聚类。

from sklearn.cluster import KMeans
from sklearn.externals import joblib
from gensim.models.doc2vec import Doc2Vec
'''
参数:
n_clusters:k值
max_iter:最大的迭代次数
n_init:用不同的初始化质心运行算法的次数，选择最好的结果
algorithm:数据稠密选elkan 数据稀疏选full， 自动选择auto
'''
feature = []
#载入doc2vec训练好的模型
model = Doc2Vec.load("model/daixia_d2c_200.model")
#将每一条数据转换为对应的文档向量，添加到一个列表中
for i in range(425):
    vector = list(model.docvecs[i])
    feature.append(vector)
#设定簇数
clf = KMeans(n_clusters=4)
#模型训练
s = clf.fit(feature)
#保存模型
joblib.dump(clf,'model/km_200.model')
#模型参数
print(s)
#输出簇心向量
print(clf.cluster_centers_)
#输出每个样本所属的簇
print(clf.labels_)
#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数
print(clf.inertia_)
#载入模型
clf = joblib.load('model/km_200.model')
print(clf.predict([list(model.docvecs[0])]))

猜你喜欢

转载自blog.csdn.net/weixin_39837402/article/details/80336457

基于doc2vec的文本聚类

基于doc2vec的中文文本聚类及去重

基于doc2vec计算文本相似度

基于gensim的doc2vec实践

基于gensim Doc2Vec的评论文本情感分类测试实验

使用 Doc2Vec & Logistic Regretion 进行多类文本分类

doc2vec方法判断文本相似度

Doc2Vec实践

基于gensim的Doc2Vec简析

自然语言处理（NLP）：05 基于 doc2vec 特征抽取+电影情感文本分类

Doc2Vec,Word2Vec文本相似度初体验。

doc2vec原理及实践

Doc2vec实现原理

特征工程（三）Doc2Vec

Doc2Vec论文及实战

学习笔记|Doc2Vec

Doc2Vec的简介及应用(gensim)

doc2vec介绍和实践

Doc2Vec模型详解

word2vec、doc2vec的使用

word2vec 和 doc2vec

Word2vec 和 Doc2vec 总结

word2vec和doc2vec的总结

【机器学习】使用gensim 的 doc2vec 实现文本相似度检测

tensorflow在文本处理中的使用——Doc2Vec情感分析

gensim中doc2vec计算文本相似度

用gensim doc2vec计算文本相似度，Python可以跑通的代码

文本处理+机器学习（doc2vec + 分类（离散点））：论文级别预测

文本多分类之Doc2Vec实战篇

NLP学习（九）文本向量化doc2vec及案例实现-Python3实现

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)