基于w2v词向量聚类出现的问题（有待解决） - 代码天地

基于w2v词向量聚类出现的问题（有待解决）

其他 2018-10-10 20:03:42 阅读次数: 0

1.训练词向量代码如下：
#训练词语为向量表示
def w2v_train(self):

    ques = self.cu.execute('select question from activity')#将所有问题内容作为预料训练一个w2v模型
 da_all = []
 for d in ques:
 da_all.append(d[0])
 sentences = self.get_text(da_all)
 model = Word2Vec()
 model.build_vocab(sentences)
 model.train(sentences,total_examples = model.corpus_count,epochs = model.iter)
 model.save("./tmp/user_w2corpus")
训练的结果为一个词一个向量
2.重新将某用户的每个问题取出来进行分词，然后聚类

def simmetric_topic_A(self,clust_num,userid):
    from sklearn.cluster import KMeans
 from sklearn.externals import joblib
 texts=self.get_dict(userid)[1] # 词汇
 texts_len=len(texts)
 model = gensim.models.Word2Vec.load('./tmp/user_w2corpus')
 texts_vec=[]#将每个计算完单个句子的向量的结果存储到该列表即返回句子向量
 X=[]
 for text in texts:#将每个句子循环一次
 text_vec=np.zeros((100,))#由于默认的w2v训练得到的向量维度为100，所以初始化为100,开始初始化为0，但是如果该句子中只有一个词汇并且该词汇没有训练到，则维度无法与之前保持一致
 for t in text:#每个句子中的每个词汇的向量求和
 try:
 # text_vec+=model[t]#得到句子向量
 X.append(model[t])#将词加入X,某个词如果出现在多个文档中，则会加入X多次
 except Exception as e:
 print('训练的向量集合中没有留下该词汇',e)
3.发现聚类效果还可以，但是用来聚类的词由于每个问题中会有重复词，所以会导致最后用于聚类的词有很多一样的，于是我将词去重后重新聚类，但是效果却十分不好，聚类的质心根本没有达到想要的效果（质心对应的词不能代表该用户关注的某个主题），
而有重复词的却达到了我想要的效果，是因为样本量大的原因吗？但是我是通过计算词汇向量之间的相似度来聚类的，不过我控制了聚类个数，但是去重前后的词不变，按理说不该聚类中心变化不是吗？？？

猜你喜欢

转载自www.cnblogs.com/kjkj/p/9768578.html

基于w2v词向量聚类出现的问题（有待解决）

javafx的坐标问题（有待解决）

数据挖掘聚类算法概述（有待完善）

w2v原理简述

关于JS中声明变量后出现bug的问题（有待看书解决）

w2v讲解详细 word2vector

有待修改

关于File类如何删除不为空的文件夹（未解决有待完善）

sscanf引发的Heap corruption detected error问题——有待完美解决

获取本机地址信息，遇到小问题...有待解决

结合w2v与svm对酒店评论数据进行情感倾向分析

Gensim库生成与导入W2V模型_CodingPark编程公园

变形加油站问题（有待改进）

linux shell循环操作 + word2vec词向量训练／聚类的参数解释

闭包（有待继续理解）

Encoder-Decoder(有待编写）

虫子爬井（有待改进）

有待学习的新内容

有待完善的扫雷程序

还有待提高的部分

Educational Codeforces Round 57 (Rated for Div. 2)（有待更新）

基于text2vec进行文本向量化、聚类

基于词向量word2vec模型的文本分类实现（算例有代码）

关于游戏测试中的bug如何定位是前端问题还是后端问题（有待完善中.....）

基于向量空间模型的文本聚类算法

关于为何TreeMap中用打印语句打印get方法会返回null的原因（解决办法有待完善）

判断目标是否在前方矩形范围内，只适用于2d有待完善

HQL实用技术（有待整改）

python 关于图片下载（有待更新）

勇者斗恶龙写的不对有待研究

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)