Information retrieval (IR class2)

1.  解析文档一般要分析哪些方面?

  - 首先分析文档的格式,是docx,html,xml,pdf...

  - 其次分析文档的语言,是英语,汉语,日语,德语...

  - 使用的什么字符集,ASCII编码,或者是UFT-8,或者....

2.  什么是Tokenization Process?

  对于汉字,需要“分词”,比如把:“我们” ->  “我” “们”

  而英文中,这个操作很简单,仅仅是空格而已:we are student -> "we" "are" "student". 然而,有时也会出现问题,比如“don't" 该如何分词??

3.  什么是stopword?

  英文里,常出现的词语,类似 you, I, and, a, 之类的

4.  什么是Normalization ?  

  把所有词还原成一种形式。 包括 stemming 和 lemmatization 。

  stemming(词干):去掉后缀(suffix),例如,police ,  policy , police  可以变成同一个 stem : polic

  lemmatization(此行还原) 例如,复数 -> 单数,动词过去式/单三式 -> 原形之类的。

5.  Porter's algorithm ?

   用来还原词干的一个算法,一个经典的规则:

      - sses     ->     ss

      - ies       ->       i

      - ational  ->     ate

      - tional    ->    tion 

猜你喜欢

转载自www.cnblogs.com/yyagrt/p/11507215.html