BOW词袋模型

忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。

     1:Bob likes to play basketball, Jim likes too.

     2:Bob also likes to play football games.

基于这两个文本文档,构造一个词典:

Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”, 8. “games”, 9. “Jim”, 10. “too”}。

 这个词典一共包含10个不同的单词,上面两个文档每一个都可以用一个10维向量表示

     1:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

     2:[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

猜你喜欢

转载自www.cnblogs.com/mimandehuanxue/p/9015521.html