现在终于知道以前的tag 聚类为什么不成功。具体是要对利用用户标注的tag对电影进行聚类。
1. 没有考虑没中算法的适用范围,当时就抱着那个能出结果就用哪个,就过聚类的结果极不平衡。
我们首先要把item表示成tag上的一个向量分布,有就为1没有则为0,布尔性数据。直接采用K-means,错误的选择,K-means极不适合非数值型属性。
2. 没有考虑数据量大小,之知道数据很大,像DBSCAN比较适合处理大一些的数据聚类
3. 没有考虑分词,去除stop word
比如一个tag是 A touching movie,分词后就是 A touching movie ,那么a会被当作stop word给删除掉,把 touching movie当作两个特征,而是把 A touching movie整体当作一个
4. 没有考虑词干提取
单复数形式,同义词,进行时,过去时态等等
结论:基本的理论知识还是需要,如果当时知道这些概念,结果可能会好一些。