動機:
多言語テキスト分類には、一般に2つの問題があります。1つは、言語数の増加に伴って計算コストが直線的に増加すること、モデルが異なる言語間で知識を転送する機能を欠いていること、つまり、1つの言語で取得されることです。知識を他の言語に適用することはできません。上記の問題に対する現在の解決策では、異なる言語のテキストに同じラベルを付ける必要がありますが、この要件を満たすのは難しいことがよくあります。したがって、この論文では、多言語の階層的注意モデルを提案します。これにより、モデルは、可能な限り少ないパラメーターを確保しながら、知識を伝達することができます。
単言語モデル構造:
テキスト分類を実現するための階層的アテンションネットワークは、通常、次の3つのステップを経ます。
- コーディング層:通常、完全接続、GRUまたは双方向GRUを使用します。
- 注意レベル:単語レベルと文レベルでそれぞれ大きな重みを与えます。
- 分類層:文レベルの注意層の出力が線形層を通過した後、シグモイド出力が使用されます。ドキュメントは複数のラベルに対応する可能性があるため、予測結果は、出力が特定のしきい値より大きい複数のラベルを取ります。
多言語モデル構造:
モデルの全体的なフレームワークは上記と同様です。違いは、パラメーターの量を減らし、さまざまな言語テキストの構造を学習するために、パラメーター情報の一部が共有されることです。1。エンコーダー部分のパラメーターを共有する; 2。アテンション部分のパラメーターを共有する; 3。エンコーダーとアテンションのパラメーターを共有する(両方)。
さらに、いずれかの言語のパラメーターを更新する過程で、他の言語のパラメーターを更新する必要があるため、次の損失関数の式があります:
実験結果:
フルリソースシナリオとローリソースシナリオからそれぞれモデルのF1値を観察します。
フルリソースのシナリオでは、上記の3つの共有パラメーターモデルの場合、共有アテンションレイヤーのパラメーターが最良の結果を達成し、両方を共有するとパフォーマンスが低下することがわかります。さらに、他の言語でトレーニングされたモデルも、知識の伝達能力を反映して、ターゲット言語で良好な結果をテストできます。
リソースが少ないシナリオでは、多言語モデルは、単一言語モデルよりも少量のデータで優れたパフォーマンスを発揮します。そして、多くの場合、両方を共有することで最良の結果を得ることができます。
総括する:
- モデルのさまざまな位置でアテンションメカニズムを使用してみることができます。
- 損失関数を最適化して、おおよその主題情報を融合します。