中文分词 mmseg4j 的词库格式 - 代码天地

中文分词 mmseg4j 的词库格式

编程语言 2018-05-13 19:40:00 阅读次数: 0

原文出处：http://blog.chenlb.com/2009/04/chinese-segment-mmseg4j-dictionary-format.html

有个网友 email 问题词库格式怎么样？他想为繁体中文进行分词，所以想词库换成繁体的。很遗憾我目前还没找到繁体版的词库。目前 mmseg4j 的词库全是简体版，包括 chars.dic、units.dic、words.dic，并且强制使用 UTF-8 编码。

下面一一解说下词库的格式。

1、chars.dic，是单个字，和对应的频率，一行一对，字在全面，频率在后面，中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。从 1.5 版后已经把它打包进 jar 里，一般不用关心它。不过可以在词库目录下放一个同名文件覆盖它。

2、units.dic，是单位的字，如：分、秒、年。这一文件是我在 mmseg4j 1.6 后加入的，也是一行一条。主要是在数字后面的单位信息切分好，不与words.dic中的词有混淆。同时也打包进 jar 里，目前还是试行，如果不喜欢它，可以用空的文件放到词库目录下覆盖它。

3、words.dic，是核心的词库文件，一行一条，不需要其它任何数据（如词长）。1.0 版是用 rmmseg（ruby 的 mmseg 实现）的词库。1.5版后 mmseg4j 改用 sogou 词库，可以 http://www.sogou.com/labs/dl/w.html 找到下载。然后我把它去了频率等信息，并转为 UTF-8 编码。

4、wordsXXX.dic，是自定义词库文件（其实是 mmseg4j 可以从多个文件读取词）。这功能是 1.6 版加入的。它的格式与 words.dic 一样，只不过 XXX 部分是如您自己写的名字，如：源码包里的 data/words-my.dic。注意：自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。

mmseg4j 默认从当前目录下的 data 目录读取上面的文件。当然也可以指定别的目录，如：new ComplexAnalyzer("./my_dic")，在 solr 中可以用 dicPath 属性指定它。

延伸：

如果加了自定义的词，要用 simple 或 complex 分词模式是检验它是否有效。因为目前 max-word 模式分出来的词长不会超过2。

猜你喜欢

转载自m635674608.iteye.com/blog/2255590

中文分词 mmseg4j 的词库格式

mmseg4j分词

mmseg4j动态加载词库

solr3.5同时配置paoding,IKAnalyzer,mmseg4j三种分词器词库

mmseg4j中文分词包使用

Solr整合中文分词mmseg4j

solr 中文分词 mmseg4j 使用例子

中文分词 mmseg4j 在 lucene 中的使用示例

solr整合mmseg4j实现中文分词检索

Solr 5.x的搭建（Solr自带的Jetty Server）与mmseg4j中文分词

solr4.3之配置中文分词mmseg4j

全文索引----中文分词器mmseg4j

偷梁换柱：MMSeg4j借用庖丁解牛的词库

Solr 3.5 + Tomcat7 + mmseg4j + 搜狗词库 -配置并运行

mmseg4j分词器导致的java.lang.AbstractMethodError

跟益达学Solr5之使用MMSeg4J分词器

Lucene5学习之使用MMSeg4j分词器

IK,ansj,mmseg4j分词性能比较

中文分词 mmseg4j-1.8

Solr 在mmseg4j中使用中文停止词（的、地、得）

如何在基于Lucene的中文分词器中添加自定义词典（如Paoding、mmseg4j、IK Analyzer）

lucene版本升级到4.6.0以上之后使用mmseg4j分词器遇到的问题

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

中文分词mmseg4j+solr 5.3.1配置

中文分词库-jieba

IKAnalyzer,mmseg4j

模块 jieba结巴分词库中文分词

python中文分词库——pynlpir

02 中文分词库实例

Python中文分词库——jieba

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)