述べたように、利用可能な多くのセグメント化ツールがありますが、ここで私は言葉jieba中国語の単語分割を使用します。
ワード文書であるために:
いくつかの単語の男は、コードに言いました:
jieba.analyseインポート オープンで( 'F:\ CSDN \ csdn.txt'、= 'GBK'をコードする)F AS:あなたは、彼らは言葉を必要とするファイルを読み込むことができます//ここでは、アドレスの変更ができる ドキュメント= f.read( ) document_cut = jieba.cut(ドキュメント) 結果= '' .join(document_cut) オープン(と'F:\ CSDN \ mi.txt'、 'W'、エンコード=)AS F2 "UTF-8"://この単語の良い点のために、ファイルに書き込まれる f2.write(結果)
結果:
jiebaの簡単な使用:
jiebaインポート 文= jieba.cut(U「私はダンスとラップバスケットボールを歌うような」) の結果=「\\」に参加(文章を)。 (結果)を印刷 IF __name__ ==「__main__」: パス
結果:私は\\ \\ \\歌うジャンプ\\ラップ\\バスケットボールが好き
より詳細なJiebaワードアプリケーション:それはいくつかの優れたブロガーのブログをお勧めします
https://blog.csdn.net/FontThrone/article/details/72782499
https://blog.csdn.net/Yellow_python/article/details/80559586