基于lucene的几种中文分词测试代码

出处:http://hi.baidu.com/lewutian/item/0231d0f26132e2b731c19997

/**
@本程序测试了四种中文分词(标准,ChineseAnayzer,je,Smart(基于中科院))的方法,读者可以通过本程序分析学习这四种中文分词方法的优劣
@其中lucene采用的2.4.1最新版本,点击这里下载学习
@中科院分词java版学习和下载到这里
@je-Analyzer下载到这里
*/
public static void main(String[] args)
    {
        String text ="发展中国家在上海大学城购买了道具和服装" ;    
        StandardAnalyzer analyzerStand = new StandardAnalyzer();//内置
        ChineseAnalyzer    chineseAnalyzer = new ChineseAnalyzer();//lucene2.4版本+
        CJKAnalyzer cjkanalyzer = new CJKAnalyzer();//亚洲字符分析器
        MMAnalyzer    analyzer = new MMAnalyzer();//je-analyzer
        Analyzer    smartChineseAnalyzer = new SmartChineseAnalyzer();//基于中科院
        try
        {
            AnalyzerUtils.displaytokens(analyzerStand, text);
            AnalyzerUtils.displaytokens(chineseAnalyzer, text);
            AnalyzerUtils.displaytokens(cjkanalyzer, text);
            AnalyzerUtils.displaytokens(smartChineseAnalyzer, text);
            AnalyzerUtils.displaytokens(analyzer, text);
        }
        catch (IOException e)
        {
                e.printStackTrace();
        }

Run and Show results:

从结果可以看出2点:
正确率: Je>=Smart>=二分法>=Chinese>=Stand
时间:     Stand<=二分法Chinese<= Smart<=Je
还有一点,就是经过几次分析后,可以明显看出基于中科院的那个分词时间明显下降一个数量级,没有仔细
研究,怀疑和隐马尔科夫模型有关。

其他的优劣请读者自我发掘,有问题麻烦告诉我,Thx。
http://hi.baidu.com/lewutian推荐文章:
1. VC MFC中设置对话框的背景色、背景图片
2. 将汉字转化为拼音 实现中英文混合排序 pinyin4j
3. 1
4. 1
5. Lucene 2.2.0
6. 转一篇比较好的Lucene的文章
7. Lucene构架全文搜索引擎
8. lucene 对目录索引和搜索例子
9. 用开源软件构建垂直搜索引擎
10. Lucene简单使用
11. lucene中文切词(没加庖丁方法的)算法
12. lucene demo
13. 采访IK Analyzer 中文分词器开源项目作者林良益
14. Lucene中文分词下载
15. lucence 3.0 分词测试

猜你喜欢

转载自he3109006290.iteye.com/blog/2054247
今日推荐