千万级巨型汉语词库分享

千万级巨型汉语词库分享
算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,“人”“保”作为名字的二三字的确非常有可能,但是正常人都不会取这个名字。要是我把“人”“保”这两个字的频度降低或删除的话,“袭人”“王保全”这些名字又无法识别。本来博客“自然语言处理”分类下就有“语料库”这一小类...

继续阅读码农场 » 千万级巨型汉语词库分享

原文链接http://www.hankcs.com/nlp/corpus/tens-of-millions-of-giant-chinese-word-library-share.html

转载于:https://my.oschina.net/hankcs/blog/342303

猜你喜欢

转载自blog.csdn.net/weixin_33756418/article/details/91780446