卒業 - 中国のデータセットは、jiebaワードを得られることになります

述べたように、利用可能な多くのセグメント化ツールがありますが、ここで私は言葉jieba中国語の単語分割を使用します。

ワード文書であるために:

 いくつかの単語の男は、コードに言いました:

jieba.analyseインポート
オープンで( 'F:\ CSDN \ csdn.txt'、= 'GBK'をコードする)F AS:あなたは、彼らは言葉を必要とするファイルを読み込むことができます//ここでは、アドレスの変更ができる
    ドキュメント= f.read( )
    document_cut = jieba.cut(ドキュメント)
    結果= '' .join(document_cut)
    オープン(と'F:\ CSDN \ mi.txt'、 'W'、エンコード=)AS F2 "UTF-8"://この単語の良い点のために、ファイルに書き込まれる
        f2.write(結果) 

結果:

 

jiebaの簡単な使用:

jiebaインポート
文= jieba.cut(U「私はダンスとラップバスケットボールを歌うような」)   
の結果=「\\」に参加(文章を)。 結果)を印刷
IF __name__ ==「__main__」:
    パス

結果:私は\\ \\ \\歌うジャンプ\\ラップ\\バスケットボールが好き 

より詳細なJiebaワードアプリケーション:それはいくつかの優れたブロガーのブログをお勧めします

https://blog.csdn.net/FontThrone/article/details/72782499

https://blog.csdn.net/Yellow_python/article/details/80559586

发布了15 篇原创文章 · 获赞 8 · 访问量 898

おすすめ

転載: blog.csdn.net/caicai779369786/article/details/104342178