机器学习:文本挖掘

1.数据挖掘与文本挖掘的区别(结构化数据,非结构化数据)

2.分词方案(基于字符串匹配,基于统计)

https://www.zhihu.com/question/19578687

3.中英文预处理区别

英文:https://www.cnblogs.com/pinard/p/6756534.html

中文:http://m.blog.csdn.net/lucky_ricky/article/details/78221210

4.TF-IDF缺点(缺点是有时候用词频来衡量文章中的一个词的重要性不够全面,有时候重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性。如果要体现词的上下文结构,那么你可能需要使用word2vec算法来支持。)

5.文本相似度计算(向量空间表示后计算余弦值)

6.如何用 word2vec 计算两个句子之间的相似度?

https://www.zhihu.com/question/29978268

7.欧氏距离和余弦相似度的区别是什么?

https://www.zhihu.com/question/19640394

在文本聚类中,一般是用欧氏距离还是余弦值?从stackoverflow这个帖子看,对于稀疏向量(文本向量显然是稀疏的),一般用cosine比较好clustering - Euclidean distance is usually not good for sparse data?

8.朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别

https://www.zhihu.com/question/20138060

9.文本降维(Hash Trick)

https://www.cnblogs.com/pinard/p/6688348.html?utm_source=itdadao&utm_medium=referral

10.主题模型(GG)

猜你喜欢

转载自blog.csdn.net/weixin_41108334/article/details/82897770