STC2聚类算法用于中文文本推荐

版权声明:如涉及其他作者内容,会标注;不小心侵权 欢迎告知。 https://blog.csdn.net/u011334375/article/details/88565184

1、聚类算法内存不足的问题
1)STC2原作者code链接,https://github.com/jacoxu/STC2,加载预先计算好的每个sentence的word2vec特征向量,相比于github上其他版代码加载庞大的google.news.bin文件,节约了内存
2)CNN、聚类算法都较耗内存,所以采用分级聚类、融合的策略。将数据切分成若干份,用同一个STC-*网络训练,拥有相同聚类中心的sentences合并,再训练若干个STC-*网络
2、Embedding层的问题
1)keras中的embedding矩阵做为权重,对稀疏特征进行降维,得到稠密特征。这个embedding权重矩阵是学习到网络内部的。所以如果想在predict时候,正确的加载网络,应当在train 和predict时,预先加载相同的embedding矩阵。
2)当要想在train 和predict时,预先加载相同的embedding矩阵,并且要求这个矩阵尽量能够覆盖train和predict语料中的word,训练word2vec时的语料应尽可能的cover all possible word
3、二进制编码guide CNN 时,loss函数的设置,算法收敛问题
4、算法性能及无监督CNN聚类的思考
用一个不太好的AE、LSA等算法,guide CNN网络,得到的深层特征,为什么能达到提升聚类效果的目的?该论文借鉴了Encoding-Decoding的思想(How to do unsupervised Clustering with Keras),提取text的deep feature,达到性能提升。在中文文本上初步测试,达到67%的准确度。

参考文献:Xu J , Xu B , Wang P , et al. Self-Taught convolutional neural networks for short text clustering[J]. Neural Networks, 2017, 88:22-31.

猜你喜欢

转载自blog.csdn.net/u011334375/article/details/88565184