《数学之美》第14章 余弦定理和新闻的分类

1 新闻的特征向量

    对于一篇新闻中的所有实词,计算出它们的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排序,就得到一个向量。每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献。

2 向量矩阵的度量

    同一类新闻一定是某些主题词用得较多,另外一些词则用的较少。反映在每一篇新闻的特征上,如果两篇文章属于同一类,它们的特征向量在某几个维度的值都比较大,而在其他维度的值都比较小。反过来看,如果两篇新闻不属于同一类,由于用词的不同,在它们的特征向量中,值比较大的维度应该没有什么交集。

    当两条新闻向量的余弦等于1时,夹角为0,两条新闻完全相同;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,夹角越大,两条新闻越不相关。

3 计算余弦向量的技巧

    3.1 大数据量时的余弦向量

        首先,分母部分不需要重复计算。

        其次,在计算分子即两个向量的内积时,只考虑向量中的非零元素。

        最后,可以删除虚词,包括搜索中的非必留词以及一些连词、副词和介词

    3.2 位置的加权

        和计算搜索相关性一样,出现在文本不同位置的词在分类时的重要性也不同。要对标题和重要位置的词进行额外的加权,以提高文本分类的准确性。

        

猜你喜欢

转载自blog.csdn.net/wangsiji_buaa/article/details/80196159