论文笔记「マルチゲート混合・オブ・専門家とマルチタスク学習におけるモデリングのタスク関係」

論文は、リンクMMoEを

1.概要

ニューラルネットワークに基づくマルチタスク学習は、ユーザーがお勧め与えるか、または、彼らは買うかもしれない映画を鑑賞するだけでなく、この映画のその後の利用者を考慮に加えて、このような映画の勧告のような推奨システム、などの大規模なアプリケーションの実際の場面でてきました評価。マルチタスクを通じて学ぶ、私たちの目標は、より実際のビジネス目標を学ぶためにモデルを使用することであるが、予測モデルの品質は、一般的に、通常は、タスク間の関係に非常に敏感なマルチタスクで使用されています。そのため、関係の間のトレードオフをモデル化するタスク間の具体的な目標や課題の研究は非常に重要です。
Googleはチームが新しいマルチタスク学習、マルチゲート混合オブ提案をお勧め専門家(MMoE)、 学習課題を通じて明示的にリレーショナルデータモデルを。すべてのタスクの中で、専門家のサブモデルを共有することにより、専門家のミックス(MOE)、マルチタスク学習に適した構造が、また、各タスクを最適化するために、ゲートされた構造によって訓練のネットワークを持っています。相関データセットは、第1の人工制御タスクデータ、表面の関連するセットに適用される異なるタスクの方法の性能を確認するために、小さなタスク相関実験も、この方法は、我々は、より良い現在のベースライン性能よりもショーは、MMoE構造がランダムの度合いを変えてトレーニングデータとモデルの初期化に応じて、追加の利益の訓練可能性をもたらすでしょう。また、当社は、実際のタスクのパフォーマンスMMoEが改善を含む大規模なバイナリ分類ベンチマークとGoogleのコンテンツ推薦システムを含む示しています。

2、モデルの導入

ここに画像を挿入説明

触発MMoE環境省、MMoE関係を明示的にモデル化し、タスクの構造、および特徴付けるための共有機能を使用して学習タスク固有。これは、キャプチャ情報を自動的に割り当てパラメータは、各タスクのための新たな多くのパラメータを追加することなく、タスクまたはタスク固有の情報を共有することができます。図MMoE骨格構造または基準(a)は、マルチタスクDNNモデル構造は、図1に底を共有し、本明細書に示されるように、基礎となる共有底ため、上部二学習タスクは、モデル構造1(c)を共有しています。ネットワークの複数のブロックと底、各ブロックはとても異なるタスクのための重みベクトルのSoftMax、各専門家のための1つの出力は、それぞれの専門家は、その二つのドア制御ネットワーク入力元の特徴、ネットワークの専門家と呼ばれています同じ役割を果たしていません。

2.1共有ボトムマルチタスクモデル

タスク指定されたKは、ネットワークモデルは、機能によって、共有下で F F 表し、 K K タスク塔ネットワーク 時間 k H ^ {K} タスクを補います k K 、モデルは次のように表すことができます。 y k = h k ( f ( x ) ) Y_K = H ^ {K}(F(x))を

2.2元の混合物・オブ・専門家(環境省)モデル

専門家モデルの元の混合物のように表すことができます。 y = i = 1 n g i ( x ) f i ( x ) Y = \ sum_ {i = 1} ^ {n}がG_ {I}(X)F_ {I}(X)
その g グラム 、ネットワーク制御ゲートであります g ( x ) = s o f t m a x ( W T x + b ) G(X)=ソフトマックス(W ^ T * X + B) 、各専門の出力重量が重い元の入力であり、そして i = 1 n g i ( x ) = 1 \ sum_ {I = 1} ^ {n}はg_i(X)= 1 f i f_i Nはネットワークをゲーティングすることによって、専門家のニューラルネットワークであります g グラム 個別専門家の結果を統合します。より具体的には、入力、出力、および最終的な出力に基づいてゲーティングネットワーク配信G N専門家を生成するために、すべての専門家の加重和です。

環境省物品は、細胞LSTMと同様ユニットとして有する出力部の単位として次の入力を過ごすことになります。

2.3マルチゲート混合・オブ・専門家モデル

この論文プレゼント、タスクの違いをキャプチャするために設計された共有の下のマルチタスクモデルと比較して、かなり多くのモデルパラメータの必要はありませんされ、新たな萌えモデル。新モデルは、マルチゲート混合・オブ・専門家と呼ばれている(MMoE)モデルは、核となるアイデアは、共有ボトムネットワークを置き換えるために萌え層を使用することで、各タスクの追加 k K 、新しい扉空のネットワークを追加します g k G ^ k個 、より正確に、タスク k K 出力は次のとおりです。 y k = h k ( f k ( x ) ) Y_ {K} = H ^ {K}(F ^ {K}(X)) 、前記 f k = i = 1 n g i k f i ( x ) F ^ {K} = \ sum_ {I = 1} ^ {n}がG_ {I} ^ {K} F_ {I}(X) 私たちの実装はReLU同じ有効多層パーセプトロンを含んでいます。のみ入力ゲーティングネットワーク層ソフトマックスと線形変換 g k ( x ) = s o f t m a x ( W g k x ) G ^ {K}(X)=ソフトマックス(W_ {G ^ K} X) の学習条件専門サブセットの選択された一部の断続入力サンプル内の各ネットワークのために。マルチタスク学習における柔軟なパラメータ共有のために、これは理想的です。唯一の最高得点の専門家を有する選択ゲートは、その後、各ゲートされたネットワークは、実際にスペースを入力する場合は特殊なケースとして、直線的にn個の領域、専門家に対応する各エリアに分かれています。MMoEタスクがどのようにこの複雑重ねて別のパーティションのドアとの間の関係を決定することによってモデル化することができます。関連性が低いタスクは、専門家のシェアは処罰される場合は、ゲーティング・ネットワークしながら、これらのタスクではなく、別の専門家を使用することを学びます。ゲートで囲われたネットワークパラメータは、共有下のモデルに比べて、MMoEわずか数より多くの余分なゲーティングネットワークは、増加は無視することができます。

3.実験結果

パブリックデータセットのパフォーマンス全体が他のベースモデルよりも優れているとして、あなたがmmoeを見ることができます
ここに画像を挿入説明

参考文献:
1、HTTPS://zhuanlan.zhihu.com/p/55752344

公開された114元の記事 ウォン称賛55 ビュー80000 +

おすすめ

転載: blog.csdn.net/zuolixiangfisher/article/details/104498348