1.数据挖掘与文本挖掘的区别(结构化数据,非结构化数据)
2.分词方案(基于字符串匹配,基于统计)
https://www.zhihu.com/question/19578687
3.中英文预处理区别
英文:https://www.cnblogs.com/pinard/p/6756534.html
中文:http://m.blog.csdn.net/lucky_ricky/article/details/78221210
4.TF-IDF缺点(缺点是有时候用词频来衡量文章中的一个词的重要性不够全面,有时候重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性。如果要体现词的上下文结构,那么你可能需要使用word2vec算法来支持。)
5.文本相似度计算(向量空间表示后计算余弦值)
6.如何用 word2vec 计算两个句子之间的相似度?
https://www.zhihu.com/question/29978268
7.欧氏距离和余弦相似度的区别是什么?
https://www.zhihu.com/question/19640394
在文本聚类中,一般是用欧氏距离还是余弦值?从stackoverflow这个帖子看,对于稀疏向量(文本向量显然是稀疏的),一般用cosine比较好clustering - Euclidean distance is usually not good for sparse data?
8.朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别
https://www.zhihu.com/question/20138060
9.文本降维(Hash Trick)
https://www.cnblogs.com/pinard/p/6688348.html?utm_source=itdadao&utm_medium=referral
10.主题模型(GG)