HanLP - 分词器 - 自定义词典

第一步:  data\dictionary\custom目录下新增   我的词典.txt       

  注意:

  (1)文件编码必须utf-8的;

  (2)词典格式,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。

  (3)建议将相同词性的词语放到同一个词典文件里,便于维护和分享

第二步:删除目录中的CustomDictionary.txt.bin缓存文件

第三部:配置文件hanlp.properties修改,CustomDictionaryPath后增加 我的词典.txt

运行代码,会提醒找不到CustomDictionary.txt.bin文件,不用管,他会自动再生成一个。过一段时间过后就能出结果。

猜你喜欢

转载自www.cnblogs.com/sss-justdDoIt/p/9218233.html