機械翻訳ノート

機械翻訳とデータセット

機械翻訳(MT):自動的に別の言語に一つの言語から翻訳されたテキストの一部、この問題を解決するためのニューラルネットワークが頻繁に呼び出される神経機械翻訳(NMT)。主な特長:単語列を出力するのではなく、単一の単語です。出力シーケンスの長さは、ソースシーケンスの長さは異なっていてもよいです。

コンピュータでエンコードされた文字の形で、私たちは通常、スペースを使用していることは、\ X20、0x20に〜0x7eの標準のASCII文字の可視範囲内にあるあります。そして、\拡張文字セットはlatin1(ISO / IEC_8859-1)に属するXA0文字が途切れないホワイトスペースをNBSP(改行なしスペース)の代表である、GBKエンコーディング範囲を超えて、特殊文字を削除する必要があります。プロセスは、データは、前処理、我々は最初のデータをきれいにする必要がありました。

分詞

文字列の----単語リスト

辞書の確立

IDを構成する単語のリストからなるリスト---言葉

 

エンコーダ・デコーダ

エンコーダ:隠された状態に入力
デコーダ:隠された出力

画像名

これは、対話システム、生成的なタスクに使用することができます。

シーケンスのシーケンス模型

モデル:

トレーニング
画像名見通し

画像名

特定の構造:

画像名

ビームサーチ

シンプル貪欲検索:

画像名

ビタビアルゴリズム:最高の全体的なスコア文(探索空間が大きすぎる)、ビームの検索:

画像名

 

 

 

 

リリース9件のオリジナルの記事 ウォンの賞賛1 ビュー901

おすすめ

転載: blog.csdn.net/wjsjjss/article/details/104372960
おすすめ