bag-of-word和tf-idf

 

  1. Bag of words

Bag-of-words 是一种忽略文本的语法和语序的模型,用一组无序的单词(words)以及对应的特征列来表示一个文档(目前在cv领域用的多,将图像的的特征当作单词),下面有一个具体的例子:

 1)John likes to watch movies. Mary likes too.

 2)John also likes to watch football games.

根据上面的文档构建一个字典:

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

然后根据上面的字典可以用向量的形式表现出两个文档:

1)[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

2)[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

            

    2. TF-IDF

TFIDF是Term Frequency - Inverse Document Frequency的缩写,TF反应一个词在当前文档中的词频,而IDF反应一个词在所有文档出现的频率,如果一个词在所有文档中出现的频率比较高那么对应IDF值比较低

      1) TF:一个词在当前文档中出现的次数比上当前文档的词汇量:

2) IDF: 文档总数N与一个词在所有文档出现的文档数相比

                    

      3) TF-IDF

                                                

猜你喜欢

转载自blog.csdn.net/GrinAndBearIt/article/details/86588866