1: 概要
Jieba は、中国語の単語セグメンテーションのための優れたサードパーティ ライブラリです。
中国語テキストは単語分割を通じて個々の単語を取得する必要がある
Jieba は中国語単語分割用の優れたサードパーティ ライブラリですが、追加のインストールが必要です
jieba ライブラリには 3 つの単語分割モードが用意されており、最も単純なモードでは関数をインストールするだけで済みます。
jieba ライブラリは、中国語シソーラスを使用して単語の分割を識別します。
インストールコマンドは以下のとおりです。
→→→→→→→→→「windows+r」をクリックしてコマンドプロンプトに入り、「cmd」と入力し、インターフェースに入ったら「 pip install jieba 」と入力します。インストールできます。
2: jieba ライブラリの使用手順
(1) jieba 単語分割の 4 つのモード
完全一致モード、完全モード、検索エンジン モード、新分詞
① jieba.cut(s) 精密モード: 冗長な単語を含まずにテキストを正確に分割します。
② jieba.lcut(s,cut_all=True) フル モード: テキスト内のすべての可能な単語をスキャンします。冗長性があります。
③jieba.lcut_for_search(s) 検索エンジン モード: 正確なモードに基づいて、長い単語を再度分割します:
④jieba.add_word(w)、新しい単語 w を単語分割辞書に追加します。
コード例は次のとおりです。
import jieba
a=jieba.add_word("奇才队控球后卫约翰沃尔是NBA超级巨星")
b=jieba.lcut("奇才队控球后卫约翰沃尔是NBA超级巨星")print(b)
実行中のインターフェイスは次のとおりです。
キーポイント: jieba.lcuts(s) は、文字列 s に対して正確な単語の分割を実行し、リスト型を返すことができます。
———————————————
参考記事リンク:
https://cloud.tencent.com/developer/article/2154756
https://blog.csdn.net/weixin_61631131/article/details/124274495