版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_32768743/article/details/88390296
本文实验中使用的分词器是哈工大LTP分词器OLTP分词模块融合了算法和 字典等外部资源,利用机器学习算法来实现消歧。LTP将分词定义为序列标注问 题,通过对每个字标注一个词边界来实现分词。并且r i’LIP分词器加入一些优化策 略:英文、URI一类特殊词识别规则,利用空格等自然标注线索,在统计模型中 融入词典信息,从大规模未标注数据中统计字间互信息、上下文丰富程度。