機械翻訳とデータセット
機械翻訳(MT):自動的に別の言語に一つの言語から翻訳されたテキストの一部、この問題を解決するためのニューラルネットワークが頻繁に呼び出される神経機械翻訳(NMT)。主な特長:単語列を出力するのではなく、単一の単語です。出力シーケンスの長さは、ソースシーケンスの長さは異なっていてもよいです。
コンピュータでエンコードされた文字の形で、私たちは通常、スペースを使用していることは、\ X20、0x20に〜0x7eの標準のASCII文字の可視範囲内にあるあります。そして、\拡張文字セットはlatin1(ISO / IEC_8859-1)に属するXA0文字が途切れないホワイトスペースをNBSP(改行なしスペース)の代表である、GBKエンコーディング範囲を超えて、特殊文字を削除する必要があります。プロセスは、データは、前処理、我々は最初のデータをきれいにする必要がありました。
分詞
文字列の----単語リスト
辞書の確立
IDを構成する単語のリストからなるリスト---言葉
エンコーダ・デコーダ
エンコーダ:隠された状態に入力
デコーダ:隠された出力
これは、対話システム、生成的なタスクに使用することができます。
シーケンスのシーケンス模型
モデル:
トレーニング
見通し
特定の構造:
ビームサーチ
シンプル貪欲検索:
ビタビアルゴリズム:最高の全体的なスコア文(探索空間が大きすぎる)、ビームの検索: