最近在做nlp的任务,经常会用到分词。有个问题:nltk的word_tokenizer和直接使用split(' ')感觉效果是类似的,而且还会出现can't这类的词被word_tokenizer切分成ca n't。这样看来,以后分词就直接使用split(' ')更加高效和正确么???
NLTK的分词器
猜你喜欢
转载自blog.csdn.net/henghen9943/article/details/81490893
今日推荐
周排行