中国の単語分割ツールのNLP- 3種類

  この記事は、中国の単語分割ツールの3種類がLTPをヒットされているこれらの3つのツールを使用しようとすることで、言葉をどもっとpkusegの北京大学。
  pyltp、jieba、pkusegワードファイルのLTPモデル:まずは、環境、三つのモジュールをインストールする必要性を準備しましょうcws.modelユーザー辞書に次の5つの単語を追加します。

ことで
少しアン
彼Fengying
F-35戦闘機
アイーダのEr・A Lekan

  次のようにPythonコードのテストは次のとおりです。

- * -コーディング:UTF-8 - * - 

インポートのOS
 インポートjiebaの
 インポートpkuseg
 から pyltp インポートセグメンタ

レキシコン = [ ' '' あまり安全'' 彼Fengying '' F-35戦闘機'" アイーダのEr-A Lekan ' ] カスタム辞書

#のHIT LTPワード
DEFのltp_segment(送信):
     #1 ロード・ファイルを 
    os.path.join = cws_model_path(' データ/ cws.model "Wordのパスモデル、モデル名のcws.model` ` 
    os.path.join =(lexicon_path ' データ/ lexicon.txt '#のパラメータ辞書カスタム辞書ファイルのパス 
    セグメンタ= セグメンタ()
    segmentor.load_with_lexicon(cws_model_path、 lexicon_path)
    の言葉 = リスト(segmentor.segment(送信))
    segmentor.release()

    の戻りの単語の

#は、ワードどもっ
DEFの:jieba_cut(送信)
     のWord :レキシコン
        jieba.add_word(ワード)
    リターン)一覧(jieba.cut(送信を)

#1 pkusegワード
DEFのpkuseg_cut(送信):
    ワンセグPkuseg.pkuseg =(user_dict = 辞書)
    の単語 = seg.cut(送信)
     リターン言葉

送信済み = " 後でYutingが結婚したが、彼の妻彼Fengying戻って別の復帰にあまりいじめの母親アンYutingにそれらの年、henpeckedでも音は何も言わ勇気がなかったが、彼の母親は彼少ない安全を気にしません。
月に既報の通り=送信済み」、昨年イスラエルは実際の戦闘でのF-35戦闘機を使用した最初の国となりました。長江で4月8日のボート=送信は」小さな鳥の島に行きます。=送信済み」1958年アイーダのEr・A Lekanは、米国ではより多くを過ごすためにトルコの首都アンカラで生まれたが、彼の学校のキャリアました。' 

印刷' LTP:'ltp_segment(送信))
 を印刷' jieba:'jieba_cut(送信))
 を印刷' pkuseg:"、pkuseg_cut(送信))

  次のように最初の単語の場合、出力結果は以下のとおりです。

オリジナル:Yuting後に結婚し、彼の妻彼Fengying少ない安全なママのものいじめ別の背面背面にあるが、henpeckedさえ聞いたYutingは何も言って勇気がなかったが、彼の母親は彼少ない安全を気にしません。

LTP:[ 'ティンは'、 '結婚'、 '未来'、 ''、 '彼は'、 '妻'、 '彼Fengying'、 '誰' 'であるが'、 'で'、 'に'、「少ないです"のアン '' '' '' バック '' と '' '' バック ' ''、' 恐怖 '' 妻の母 '' いじめ '' '' 「は」「ティン」、「でも」、「」、「音」、「ノー」、「あえて」、「喉」、「」、 『しかし』、 『あまり安全な』、「彼の母親'' ノー '' ケア '' 彼 ''。「]

jieba:[ 'ティンは'、 '結婚'、 '未来'、 ''、 '彼は'、 '妻'、 '彼Fengying'、 '誰' 'であるが'、 'で'、 'に'、「少ないです上のアン '' 母 '' いじめ '' '' バック '' と '' バック ' ''、' henpecked '' '' ティン '' でも " 「音」、「また」、「何も言う「ことができない」」、」、 『『あまり安全で、』『彼の母親』、『いいえ』、『ケア』、『彼』、』。「]

pkuseg:[ 'ティンは'、 '結婚'、 '未来'、 ''、 '彼は'、 '妻'、 '彼Fengying'、 '誰' 'であるが'、 'で'、 'に'、「少ないです"のアン '' '' '' バック '' と '' '' バック ' ''、' 恐怖 '' 妻の母 '' いじめ '' '' 「は」「ティン」、「でも」、「」、「音」、「ノー」、「あえて」、「喉」、「」、 『しかし』、 『あまり安全な』、「彼の母親'' ノー '' ケア '' 彼 ''。「]

  以下のように、第2の文の場合、出力結果は以下のとおりです。

オリジナル:以前に報告したように、昨年5月のイスラエルは、実際の戦闘でのF-35戦闘機を使用した最初の国となりました。

LTP:[「データ」、「の後に」、「報告」、「」、「イスラエル」、「」「」月 『』になる 『』世界 『」、昨年』、「で」上の最初の'' '' で '' 本物 '' で '' 使用 '' F-35 '' 航空機 '' '' 国 ''。は、「]

jieba:[ 'したがって'、 '前'、 'レポート'、 ''、 'イスラエル'、 'で'、 '最後'、 '5'、 '月'、 'になる'、 '世界'、」 '' 最初 '' で '' 本物 '' で '' 使用 '' F '' - '' 35 '' 航空機 '' '' 国 ''。「]

pkuseg:[「で」、「」、「イスラエル」、「報告」「の後に」「データ」、、、「昨年、 『』月 『』になる 『』世界」、「上」、」最初の'' '' で '' 本物 '' で '' 使用 '' F-35戦闘機 '' '' 国 ''。「]

  次のように第三の単語を、出力結果は、次のとおり

オリジナル:長江によってボート4月8日には、小さな鳥の島に行きます。

LTP:長江による[「ボート」、「4月」、「8」「」、「行く」、「リトルバード島」」。「]

jieba:[ 'ボート'、 '4'、 '月'、 '8'、 '日経'、 '長江'、 '小'、 '鳥の島'」、 '行きます'。「]

pkuseg:[ 'ボート'、 '4月'、 '8'、 '長江'、 '後'、 '行く'、 '鳥'、 '島'」。「]

  次のように4番目の文の場合、出力結果は以下のとおりです。

オリジナル:1958年、アイーダのEr・A Lekanは、米国ではより多くを過ごすためにトルコの首都アンカラで生まれたが、彼の学校のキャリアました。

LTP:[ '1958インディアン'、」、 ' 'アイーダErは・A Lekan' ' ' 'アンカラ ''、'、' しかし '' 資本 '' トルコ' 'に'' 生まれ彼は、 ' 『と』学校「」キャリア「」よりは「」過ごす「」アメリカ「」「」。「]

jieba:[ '1958'、 'で'、 ''、 'エジプト'、 '合計'、 '*'、 'アル'、 'ハム'、 '生まれ'、 '中'、 'トルコ'、「資本'' アンカラ ' ''、' しかし '' 彼 '' '' 学校 '' キャリア '' で '' アメリカは ' '' 過ごす' 'よりも' を。「]

pkuseg:[ '1958インディアン'、」、 ' 'アイーダErが・A Lekan' ' ' 'アンカラ ''、'、' しかし '' 資本 '' トルコ' 'に'' 生まれ彼は、 ' 『と』学校「」キャリア「」よりは「」過ごす「」アメリカ「」「」。「]

  次に、上記のテストケースは、単純な結論を作るために:

    1. ユーザー辞書の側面:LTPとの結果が良好であるpkuseg、jiebaのパフォーマンスは、URLを参照して、主な理由は、問題の解決策について、句読点を含むカスタム辞書の単語ではなく、満足のいくものである:HTTPS:/ /blog.csdn.net/weixin_42471956/article/details/80795534

    2. 第二文の効果の観点から、セグメンテーション結果をpkusegは、何の効果もありません「で」ベストが出て、単一の単語分割、およびLTPとjiebaのカスタム辞書のも、追加としてあるべきで、同じトークン、 「F-35戦闘機」似たような状況です。

  全体的に、3のセグメンテーション効果は、ギャップは非常に大きいではありませんが、このカスタム辞書は、間違いなくpkuseg効果がより安定していない、優れています。
  はじめに、関連pkusegの使用は、URLを参照してください。https://github.com/lancopku/PKUSeg-python



おすすめ

転載: www.cnblogs.com/chen8023miss/p/11447141.html