nutch的中文分词 imdict-chinese-analyzer - 代码天地

nutch的中文分词 imdict-chinese-analyzer

编程语言 2018-05-14 17:40:52 阅读次数: 3

改造nutch，将原来的中文分词程序改成imdict-chinese-analyzer，这个是根据中科院的c版分词程序而来的纯java版。

下载imdict-chinese-analyzer

我下的是imdict-chinese-analyzer-java5.zip

nutch1.0

下载来的imdict-chinese-analyzer-java5.zip里面只是一个eclipse工程，我们要利用这个工程生成一个jar来用，或者也可以直接放到nutch的源代码项目中。这里注意的是如果要编译imdict-chinese-analyzer-java5.zip需要在项目中加入lucene-core-2.4.0.jar 和junit-4.1.jar。
将jar放入nutch的类路径。
修改org.apache.nutch.analysis下NutchAnalysis.jj文件。
将
| <SIGRAM: <CJK> >
改成
| <SIGRAM: (<CJK>)+ >

然后用javacc编译NutchAnalysis.jj文件，编译出7个java源文件。
将这7个文件放到nutch的源工程中，修改org.apache.nutch.analysis.ParseException.java。
原来是
```
public class ParseException extends Exception
```
改成
```
public class ParseException extends IOException
```
因为nutch原来的这个源文件就是这么写的，用jj文件编译出来的源文件就不对，不改的话会提示ParseException 未被捕获。
确保这7个文件放入工程后还能都编译过去。

修改org.apache.nutch.analysis.NutchDocumentAnalyzer.java
将源文件最后的那个函数修改为下面
就是使用了新的分词程序。

/** Returns a new token stream for text from the named field. */
  public TokenStream tokenStream(String fieldName, Reader reader) {
    Analyzer analyzer;
    /*
    if ("anchor".equals(fieldName))
      analyzer = ANCHOR_ANALYZER;
    else
      analyzer = CONTENT_ANALYZER;
    */
    
    analyzer = new org.apache.lucene.analysis.cn.SmartChineseAnalyzer(true);
    //
    return analyzer.tokenStream(fieldName, reader);
  }

运行程序，本人亲自试验可以通过。

猜你喜欢

转载自xiaoxinshome.iteye.com/blog/564761

nutch的中文分词 imdict-chinese-analyzer

nutch-1.0中文分词

Nutch使用入门（四）——添加中文分词

solr 4.0 集成 IK Analyzer 中文分词

IK Analyzer 3.0 中文分词器

Nutch1.2 添加IKAnalyzer中文分词(zhuan)

集成nutch和solr，并加入中文分词的过程

在tomcat中运行得nutch加入中文分词后的检索

中文分词之Java实现使用IK Analyzer实现

Solr安装与IK Analyzer(中文分词器)

Lucene 中文分词器 Ik-Analyzer 使用教程

elasticsearch6.2.2安装中文分词插件IK analyzer

配置中文分词器 IK-Analyzer-Solr7

Solr - 中文分词器IK Analyzer的简介及配置

Macropodus中文分词方法综述详解(CWS, chinese word segment)

Nutch开源搜索引擎与Paoding中文分词用plugin方式集成

lucene Analyzer 分词一

通过Analyzer进行分词

Analyzer分词器

solr查询不使用query analyzer中文分词的问题解决

Solr 4.10.3 集成 IK Analyzer 2012FF 中文分词器

solr搜索引擎配置中文分词器IK-Analyzer

Elasticsearch(010)：es中中文分词器IK-Analyzer实战

solr 4.x 中文分词: jcseg-core-1.9.7, jcseg-analyzer-1.9.7

修改imdict分词的机制，让其允许附加词库

【宾州中文树库CTB】分词手册导读《The Segmentation Guidelines for the Penn Chinese TreeBank(3.0)》

中文分词

Lucene Analyzer(分词器)

solr7.3 环境搭建配置中文分词器 ik-analyzer-solr7 详细步骤

solr8.2 环境搭建配置中文分词器 ik-analyzer-solr8 详细步骤

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)