【NLP】中文自动分词的三大难题

1)未登录词:自动分词主要是根据底表来进行的,真实文本中存在大量的未见于底表的词语,它对自动分词正确率的影响最大。

2)分词歧义:根据底表,一个串可以切开也可以不切开(组合性歧义),或者可以切在这里也可以切在那里(交集型歧义),但从上下文来看,至少有一种切法是不正确的。

3)分词不一致:上下文相同或相似情况下,一个串在分词语料库中有多种切法,也许几种切法都有道理,但应该保持一致。

猜你喜欢

转载自blog.csdn.net/zkq_1986/article/details/87969391