1. 解析文档一般要分析哪些方面?
- 首先分析文档的格式,是docx,html,xml,pdf...
- 其次分析文档的语言,是英语,汉语,日语,德语...
- 使用的什么字符集,ASCII编码,或者是UFT-8,或者....
2. 什么是Tokenization Process?
对于汉字,需要“分词”,比如把:“我们” -> “我” “们”
而英文中,这个操作很简单,仅仅是空格而已:we are student -> "we" "are" "student". 然而,有时也会出现问题,比如“don't" 该如何分词??
3. 什么是stopword?
英文里,常出现的词语,类似 you, I, and, a, 之类的
4. 什么是Normalization ?
把所有词还原成一种形式。 包括 stemming 和 lemmatization 。
stemming(词干):去掉后缀(suffix),例如,police , policy , police 可以变成同一个 stem : polic
lemmatization(此行还原) 例如,复数 -> 单数,动词过去式/单三式 -> 原形之类的。
5. Porter's algorithm ?
用来还原词干的一个算法,一个经典的规则:
- sses -> ss
- ies -> i
- ational -> ate
- tional -> tion