STC2聚类算法用于中文文本推荐 - 代码天地

STC2聚类算法用于中文文本推荐

其他 2019-03-20 11:59:49 阅读次数: 0

版权声明：如涉及其他作者内容，会标注；不小心侵权欢迎告知。 https://blog.csdn.net/u011334375/article/details/88565184

1、聚类算法内存不足的问题
1）STC2原作者code链接，https://github.com/jacoxu/STC2，加载预先计算好的每个sentence的word2vec特征向量，相比于github上其他版代码加载庞大的google.news.bin文件,节约了内存
2）CNN、聚类算法都较耗内存，所以采用分级聚类、融合的策略。将数据切分成若干份，用同一个STC-*网络训练,拥有相同聚类中心的sentences合并，再训练若干个STC-*网络
2、Embedding层的问题
1）keras中的embedding矩阵做为权重，对稀疏特征进行降维，得到稠密特征。这个embedding权重矩阵是学习到网络内部的。所以如果想在predict时候，正确的加载网络，应当在train 和predict时，预先加载相同的embedding矩阵。
2）当要想在train 和predict时，预先加载相同的embedding矩阵，并且要求这个矩阵尽量能够覆盖train和predict语料中的word，训练word2vec时的语料应尽可能的cover all possible word
3、二进制编码guide CNN 时，loss函数的设置，算法收敛问题
4、算法性能及无监督CNN聚类的思考
用一个不太好的AE、LSA等算法，guide CNN网络，得到的深层特征，为什么能达到提升聚类效果的目的？该论文借鉴了Encoding-Decoding的思想（How to do unsupervised Clustering with Keras)，提取text的deep feature，达到性能提升。在中文文本上初步测试，达到67%的准确度。

参考文献：Xu J , Xu B , Wang P , et al. Self-Taught convolutional neural networks for short text clustering[J]. Neural Networks, 2017, 88:22-31.

猜你喜欢

转载自blog.csdn.net/u011334375/article/details/88565184

STC2聚类算法用于中文文本推荐

【NLP】Python中文文本聚类

Spark中文文本聚类

基于doc2vec的中文文本聚类及去重

【NLP】Python英文文本聚类

中文短文本聚类

文本聚类算法总结

2.中文文本分类

bert中文文本摘要代码（2）

《机器学习：算法原理和编程实践》2：中文文本分类

推荐：如何正确选择聚类算法？

NLP之文本聚类算法综述

保存中文文本

PySpark NaiveBayes算法之中文文本分类测试

中文文本纠错算法走到多远了？

聚类算法（七）—— Kmeans（含标签聚类和文本聚类代码）

（MATLAB）K均值聚类算法用于图像的分割

基于聚类算法的文本热点问题挖掘算例实现（文本聚类）

中文文本预处理

中文文本分类

中文文本分句

数据挖掘随笔2聚类算法

DBSCAN聚类算法原理总结2

聚类算法(2)--Mean Shift

机器学习（2）：DBSCAN聚类算法

文本聚类

pyhanlp 文本聚类

文本聚类浅析

python 文本聚类

文本聚类与分类

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)