庖丁分词 paoding 字典的自定义加载

转自:http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx

庖丁分词 paoding 字典的自定义加载

大家下载好了庖丁中文分词后并且在MyEclipse配置好了后,并且在wingdows的环境变量里面配好了dic的字典路径后,就想着怎么加载自定义的字典了吧,哈哈,其实很简单啦,我突然之间看到的啦,你进入dic文件夹找到paoding-dic-names.properties这个文件,用文本编辑器打开内容是这样的

#dictionary character encoding
#paoding.dic.charset=UTF-8

#dictionaries which are skip
#paoding.dic.skip.prefix=x-

#chinese/cjk charactors that will not token
#paoding.dic.noise-charactor=x-noise-charactor

#chinese/cjk words that will not token
paoding.dic.noise-word=x-noise-word

#unit words, like "ge", "zhi", ...
#paoding.dic.unit=x-unit

#like "Wang", "Zhang", ...
#paoding.dic.confucian-family-name=x-confucian-family-name

#linke "uPAN", "cdHE"
#paoding.dic.for-combinatorics=x-for-combinatorics

你把你自己建立的词库添加到这个里面,或者将已有的词库前面的#去除保存,然后运行程序就可以自动检测到了,

顺便介绍下里面的几个词库功能,前面带X的词库就是屏蔽敏感词用的,哈哈哈,你将你不希望的词放到那个文件里面就可以了,哈哈,真是太高兴了。

 

转自:http://hi.baidu.com/xwx520/blog/item/c288ee3eb0f5b9f0838b137f.html

庖丁解牛分词之自定义词库[自定义词典]

    发现很久很久没更新了,尤其是这个模块,也就好久没进步了!学习如逆水行舟,不进则退!趁着还没到白首之际,应该多学习。
首先,还是先贴出来参考来源,毕竟非原创。
(1)、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
(2)、http://qipei.javaeye.com/blog/365207
现在继续:
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩,找到dic文件夹,复制到你想存放的文件夹下

          




3、配置环境变量,如果不配置,运行会报错,报错的中文信息也是需要进行配置环境变量


4、删除.compiled文件

5、新建一个文本文件,后缀名问.dic,采用utf-8保存到dic的文件目录中,这里保存在了E:/paodingTest/dic/locale中

        


6、下面我们写个分词测试程序

7、自定义词库的情况下分词结果,首先看到的是词库的编译信息


8、带自定义词库分词结果


















































9、删除自定义词库和.compiled文件,重新分词


10、放在一起比较,效果还是有的

















































11、假设我们在分词的时候,需要把运、动分开,默认情况下是不分开的


12、在词库中增加两个词运和动


13、当然,如果想把这个分词器用得更好,还需要深入去了解和思考该分词方法,比如,“我是运动员”,虽然我们在自定义词库中填加了词“运动员”,但是依旧没有切分成“我”,“是”,“运动员”,反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”,“动“,”运动“,那也是需要好好思考用法,当然这也和中国汉语的特殊性有关,例如:“乒乓球拍卖完了”,在没有上下文的情况下本身就存在歧义。

猜你喜欢

转载自chenyajie.iteye.com/blog/2041883