NLTK的分词器

最近在做nlp的任务,经常会用到分词。有个问题:nltk的word_tokenizer和直接使用split(' ')感觉效果是类似的,而且还会出现can't这类的词被word_tokenizer切分成ca n't。这样看来,以后分词就直接使用split(' ')更加高效和正确么???

猜你喜欢

转载自blog.csdn.net/henghen9943/article/details/81490893