本人github
jieba
内蔵辞書を使用して単語の分割と品詞のタグ付けを行います。この辞書は通常、テキスト ファイルとして保存され、各行にはエントリと、単語の頻度や品詞などのそれに関連する情報が含まれます。
構造
一般的な jieba 辞書の形式は次のとおりです。
词语 词频 词性
例えば:
清华大学 2333 nt
自然语言处理 1012 n
词语
辞書で認識される単語です。词频
コーパス内での単語の出現頻度を示す数値です。jieba は、単語の分割中にこの情報を使用して、単語の「重要性」を判断します。词性
単語の品詞 (名詞、動詞など) を表す識別子です。このフィールドは、品詞のタグ付け中に使用されます。
ユーザー辞書
デフォルトの組み込み辞書の使用に加えて、jieba
ユーザーはカスタム辞書をロードすることもできます。
jieba.load_userdict("userdict.txt")
カスタム辞書は、組み込み辞書と同じ形式です。カスタム辞書をロードすると、組み込み辞書のエントリを上書きしたり、新しいエントリを追加して、特定のアプリケーションまたはドメインの語彙をより正確に反映したりできます。
変更と拡張
jieba の辞書は、次のように動的に変更することもできます。
jieba.add_word("特定词", freq=1000, tag="n")
jieba.del_word("不需要的词")
こうすることで、プログラムの実行中に必要に応じて語彙を追加または削除できます。
全体として、jieba
この辞書は、さまざまな中国語テキスト処理のニーズをサポートできる、柔軟で拡張可能なコンポーネントです。