庖丁解牛(paoding) 如何定制自己的字典 (摘自官方配置文件)

庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。

在linux下,我们可以考虑将词典安装在一个专门存储数据的分区下某目录,以笔者为例,笔者将/data作为系统的一个独立分区,笔者便是将词典保存在/data/paoding/dic下。

在windows下,我们可以考虑将词典安装在非系统盘的另外分区下的某个目录,以笔者为例,笔者可能将词典保存在E:/data/paoding/dic下。

使用者安装辞典后,应该设置系统环境变量PAODING_DIC_HOME指向词典安装目录。

在linux下,通过修改/etc/profile,在文件末尾加上以下2行,然后保存该文件并退出即可。

PAODING_DIC_HOME=/data/paoding/dic

export PAODING_DIC_HOME

在windows下,通过“我的电脑”属性之“高级”选项卡,然后在进入“环境变量”编辑区,新建环境变量,设置“变量名”为PAODING_DIC_HOME;“变量值”为E:/data/paoding/dic

第3步,把paoding-analysis.jar拷贝到应用运行时的类路径(classpath)下。使用集成开发环境(IDE)开发应用的使用者,需要把paoding-analysis.jar拷贝到工程中,然后使用IDE向导引入该Jar包,以便开发应用时IDE能够认识它。

 
在dic目录下 加一个xxx.dic文件,或在别的文件中添加词语就可以了
文件里面随便你写什么,每行一个词

但是注意:
   1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
   2.字典必须是UTF-8编码
   3.不要用记事本打开(我是用Editplus把字典保存成UTF8的)

来自:http://qipei.iteye.com/blog/365207

猜你喜欢

转载自fuanyu.iteye.com/blog/1440989