ディレクトリ
I.はじめに
言語とクロス言語理解の不足に関連する転移学習のために、データのセットの評価が不可欠です。2018年、Facebookの提案XNLI(言語横断自然言語推論 ) このデータセットは、研究を容易にするために、統一された評価データセットを提供するように設計されています。NLI、テキストが意味する、自然言語理解(NLU)は矛盾(矛盾)とニュートラル(中立、二つの単語間の関係は(含意)を暗示されているかどうかを決定することが重要なデータムタスク、ですされ一種の)3。論文では、Facebookはまた、提案されたベースラインは、機械翻訳タスク、バッグワードLSTMエンコーダなどを備えます。XNLIについての詳細は、Facebookの論文を参照してください。XNLI:評価は、言語横断文の表現を示します。
二、XNLI導入
- ソース・データ・セットを取得します:
XNLIは、10の分野、すなわち:.対面、電話、政府、9月11日、文学、オックスフォード大学出版(OUP)、スレート、逐語、政府とフィクションのフロント9を含むデータセットを15の言語をサポートしています、アメリカ国民のコーパスからの英語の小説「キャプテンブラッド」から小説を開きます。ペアを標識する他の言語 - 各フィールド750は、サンプル、試験サンプルの手動注釈英語合計10フィールド7500、英語で構成112500ペアが含まれています。の2つの文から、各データサンプルは、それぞれ、施設および仮定、施設との仮定の関係は、、、矛盾(コンフリクト)、ニュートラル(中立)3、(意味)タグ付け方法が含意XNLI開発者は、最大タギング結果が公平であることを保証するために、洗練された投票のルールを使用します。
- ターゲット・データ・セットを取得します:
得られたデータの対応するセットに英語の翻訳によってターゲット・データ・セット。これは、ターゲット言語に英語の文章を翻訳することの後に問題を作成し、文の対応関係が変化します。実験を通じて、それは言語の2つのタイプの全体的な意味関係と一致しています。図1に示すいくつかのXNLIサンプルデータセット:
第三に、評価ミッションブリーフィング
1、ベースの翻訳方法
ベースライン-1:TRAIN、データセットの英語翻訳対象言語への翻訳のトレーニングモデル・データ・セットを変換。
ベースライン2:テストフェーズ中に、ターゲット言語がトレーニング段階で使用される言語に翻訳され、トレーニングのモデルでテストされ、テストをTRANSLATE。
クロス言語表現に基づいて2エンコーダ
第一の評価使命とベースの翻訳、ベースの第二の方法の埋め込み言語に依存しない統一。この考えに基づき、著者らは、クロス言語文エンコーダの2種類を提案します:
ベースライン-3:X-CBOWは、平均的な単語ベクトルのトレーニングを取得するCBOWの方法に基づいて、統一された多言語文レベルの単語ベクトルを事前に訓練を受けました。
ベースライン4:X-BiLSTM、トレーニングBiLSTMエンコーダの多言語コーパス;ベースラインこのために、著者らは隠れ表されるように、初期および最終状態を用いて、または用い、各隠れユニットの特徴を抽出するために二つの方法が提案されています前記隠れ状態として最大値は、ベースラインの異なる方法がX-BiLSTM最後と呼ばれ、そしてX-BiLSTM-MAX。
次のようにこれらのベースラインでは、他の重要な概念の数を含む、説明:
- 多言語のWordの埋め込み
本論文では、主に文章レベルでいくつかのクロス言語の研究を行うために、ほとんどの前の仕事は、基本的な考え方は、nに基づいて多言語辞書マッピング埋め込みは、学習の2種類に言われて、アライメント方式を埋め込み単語レベル、クロス言語の単語レベルに焦点を当てていますさ以下のように、言語間の関係をマッピングします:
ここで、Dは埋め込み、X、Yの寸法(D、N)行列である寸法です。辞書埋め込みの間の距離は、地図を最小限に抑えるため、この式は、新しい埋め込みスペース、単語ベクトルとの距離が近いのと同じ意味を持っているので、こと、理解することができます。X及びYは、SVDなどによってさらにパラメータ行列埋め込み距離Wを最小限に抑えることができ、UおよびVを得ることができるされています
:クロスランゲージの埋め込みの研究では、あなたはミケルアルテクセ(ホームを参照することができhttp://www.mikelartetxe.com/記事の偉大な神)。過去数年間における偉大な神は、教師なしに監督から、数年のクロス埋め込み作業研究論文の数がトップであること、および関連するコード(開く製https://github.com/artetxem/vecmapを)、リユースシンプル。
- 文、組み込み環境の整列
文対応を埋め込みます。その後、英語の良い事前研修エンコーダの著者、およびターゲット言語にエンコーダを取得するには、損失関数を最小化します:
X、Yは、2つの埋め込み言語の文を表し、最初の類似性はL2ノルムを用いて計算され、Iは、第2正規加え、このような類似度計算より堅牢理解します。そして負のサンプリング表す制御係数定期的に。以下に示すアラインメントの特定の詳細:
第四に、実験
各ベースラインには、実験結果:
実験結果から、以下の主な結論が引き出されることができます。
- 翻訳方法を基に、TESTを変換方法に基づいて、すぐに言語で使用されるトレーニングモデルのターゲット・テスト・セット変換効果となり、より良いよりもTRAINの道を翻訳し、トレーニングセットの翻訳がより良い語学研修の再評価の対象外です。
- 各ベースライン、BiLSTM最大符号器に状態を隠されたが、最後の特徴として状態を隠さない、よりよいです。
- 翻訳方法が良いと効果に基づいて、クロス言語表現のための方法論に基づいていますが、いくつかのクロス言語のタスクで、リアルタイム翻訳コストの高さ、ベースのクロス言語表現の方法は、代替ソリューションを提供します。
まずここでそれにXNLIプレゼンテーション、どのような質問は〜社会的関心の数は、一般的な進捗状況を議論接触を喜ば