基于HMM2-TriGram字符序列标注的Java中文分词器实现

基于HMM2-TriGram字符序列标注的Java中文分词器实现
谈起基于Character-Based Generative Model的中文分词方法,普遍的印象是在Bakeoff上的成绩好,对OOV的识别率高。HanLP中实现的CRF分词器其实就是这种原理的分词器,然而CRF分词缺点也是很明显的:一)模型体积大占内存。一个可供生产环境用的CRF模型至少使用前中后3个字符的组合做特征模板,在一两百兆的语料上训练,模型体积至少上百兆(有的分词器用gzip压缩过,看起来稍小),加载后更耗资源。HanLP原本使用DAT储存CRF中的特征函数,然而内存实在吃不消,降级为BinT...

继续阅读码农场 » 基于HMM2-TriGram字符序列标注的Java中文分词器实现

原文链接http://www.hankcs.com/nlp/segment/second-order-hidden-markov-model-trigram-chinese-participle.html

转载于:https://my.oschina.net/hankcs/blog/412014

猜你喜欢

转载自blog.csdn.net/weixin_34130389/article/details/91780317