Javaを使用した単純な中国語の単語セグメンテーション汎用モジュール

ステップ1:次のコードをプログラミングソフトウェアプロジェクトにコピーする前に、2つのjarパッケージ
IKAnalyzer2012.jar lucene
-core-3.6.0.jar BaiduSkyDrive

ダウンロードアドレス
https://pan.baidu.com/ s /もダウンロードする必要があります。 1oGec_mqU7PdqkKdA-H4k0Q
抽出コード:9egm
2番目の布:2つのjarパッケージを任意のファイルにコピーします(または、新しいlibフォルダーを作成して2つのファイルをそのファイルにコピーできます)
ステップ3:プロジェクトを右クリックして次のページに表示します。 [ビルドパス]の下の[ビルドパスの構成...]をクリックします
ここに画像の説明を挿入します
ステップ4:3番目のステップの後、ページに次のウィンドウが表示され、[jarの追加...]をクリックします。:
ここに画像の説明を挿入
ステップ5:プロジェクトにコピーした2つのjarパッケージを見つけます。 [Ctrl]キーをクリックすると、2つを同時に選択して追加できます。
ここに画像の説明を挿入
ステップ6:追加後、ファイルアイコンは小さなボトルになり、最後に[適用]をクリックしてコードをコピーして実行します。
ここに画像の説明を挿入

ステップ7:コードをclssファイルにコピーして実行します

package com.core.service.impl;(这里改成自己的包名)
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import 
org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class ChineseWordSeg {
    
    
	public static void main(String[] args) throws IOException {
    
    
		// 提前准备需要分词的语言
		String t = "你好,我现在还刚刚接触数据结构,所以还不是太了解!";
		// 创建一个分词对象
		Analyzer a = new IKAnalyzer(true);
		StringReader r = new StringReader(t);
		// 对读入的语言开始进行分词操作
		TokenStream to = a.tokenStream("", r);
		// 获得CharTermAttribute类
		CharTermAttribute te = to.getAttribute(CharTermAttribute.class);
		// 依次遍历分词数据,注意要转换成字符串类型
		while (to.incrementToken()) {
    
    
			System.out.print(te.toString() + ",");
		}
		r.close();
		System.out.println();
	}
}

元のリンク:https//www.cnblogs.com/zhenyunboy/articles/13841075.html

おすすめ

転載: blog.csdn.net/qq_34134299/article/details/109162921