アプリケーションのマルチタスク学習推薦アルゴリズム

REVIEW:私たちが推奨効果を最適化すると、多くの場合、ちょうどCTRの指標に焦点を当てる必要がありますが、また、これらのレートまでCVR(コンバージョン率)、ビデオ再生の長さは、長いユーザー滞在、ユーザページの深さ、注目率、親指などを最適化する必要があります指標。一つのアプローチは、単一のモデルを使用して、各タスクを最適化することであるが、その欠点が明らかにされているので、それはマンパワーがかかります。実際には多くのタスクとの間のこのようなCTRやCVRなどの関係が、そこにあります。あなたは、タスクの2つ以上の使用を最適化するためにモデルすることはできませんか?実際には、これはマルチタスクマルチタスクの定義です。この記事では、過去2年間のいくつか、業界のアプリケーションをまとめたもので、かつマルチタスクモデルの仕事は、シーンをお勧めします。

1. ESMMアリ

空間全体マルチタスクモデル:推定クリック後のコンバージョン率アン効果的なアプローチ

サンプルセレクションバイアスとスパースデータ:CVRは、購入をクリックしてからの変換を意味し、伝統的なCVRの推定値は2つの質問があるでしょう。

サンプル選択バイアスは、列車にユーザーがクリックしたサンプルモデルを意味するが、予測は、サンプル空間全体にわたって使用されます。データスパースネスの問題は、ユーザーが小さなサンプルサイズを買うためにクリックしていることです。だから、アリはこの2つの問題解決するためにESMMモデルを提案:マルチタスク学習の考え方の主なドローを、二つの補助学習課題の導入は、推定クリック率やpCTCVRを適合させるために使用されました。

2つのサブネットワーク後の出力がpCTCVRを乗算することによって得ることができるながらESMMモデルは、2つのサブネットワーク、左PCVR、右推定クリック率に適合するように使用されるサブネットワークに適合するように使用されるサブネットワークから構成される。したがって、ネットワーク構造は、三つのサブタスクを、それぞれ出力するための推定クリック率、PCVRとpCTCVRを有しています。X(すなわち、インプレッション)で表されると仮定する特徴は、Yは、z変換、次いでpCTCVR =推定クリック率* PCVRが、得られることを示し、クリックを表します。

次のようにPCVRが計算されます。

上記の式から、PCVRは推定クリック率やpCTCVRによって導出することができ、その後、我々は2つのだけタスクに集中する必要が推定クリック率やpCTCVRと推定クリック率とpCTCVRは、サンプル全体の空間から訓練することができることができますか?それはポジティブサンプルとして推定クリック率露光イベントのクリック動作のために持っている可能性があるため、なぜ、負のサンプル露光イベントとして行為をクリックしなかった、PCTCVRそれのために、正のサンプルとして同時露光イベントのクリック行動や購買行動があるだろう、負のサンプルとして他。モデルの損失関数:

他の2つのサブネットワークの層を埋め込む共有され、訓練サンプルCTRタスクがはるかに学習サンプルサイズCVRタスクよりもあるため、レベルの共有を埋め込むためESMMモデル機構はCVRサブタスクのみなしクリックを示さない試料から得ることができる可能トレーニングデータの極端なスパース性を軽減することができ、学習。

2.アリDUPN

複数のEコマースの作業から学習ユニバーサルユーザー表現:あなたの深さでユーザーを知覚

マルチタスク学習の利点は:そのような埋め込みパラメータを共有する複数のタスクとして、ネットワーク構造の一部を共有しました。ユーザーの学習、商品のベクトル表現を簡単に他のタスクに移行することができます。本論文でプレゼントマルチタスクモデルDUPN:

行動モデルは、シーケンス層、埋め込み層、LSTM層、注意層、マルチタスク下流層に分割されています。

❶層の行動シーケンス:各アクションは、2つの部分、すなわち、属性項目と項目を有する場合、X = {X1、X2、...、XN}ユーザの行動シーケンスを入力してください。アイテムは、アイテムID、およびそのような店舗ID、ブランド、等のようないくつかのサイド情報は、(サイド情報を含むシーンの多くの下でなければならない埋め込みを、取引表現を学習することが容易です)。プロパティ項目は、そのような場面(検索、勧告および他のシーン)、時間、タイプ(クリック、購入、プラスショッピング、など)などの属性の動作を表しています。

❷埋め込み層:プロパティの主なマルチ機能の項目と、処理を行います。

❸LSTM層:各埋め込み動作を取得した後LSTM、アカウントへの配列情報によって第一の層は述べています。

❹注意層:注意層は128次元のベクトルであり、ユーザ128の寸法にスプライシングベクター、最終的には256次元のベクトル表現ユーザのようにして得られた後、異なるユーザの行動の重要度を区別します。

❺下流マルチタスクレベル:CTR、L2R(ランクを学ぶ)、ダレンユーザ選好FIFP、パワーユーザPPPの購入などの尺度。

また、記事でも言及しているマルチタスクのスキルを使用する二つのモデル:

モデルを更新する❶日レベル:時間とユーザーの関心と変更、埋め込みID機能は、一定の更新が必要ですが、毎回のトレーニングモデルの総量は、それは長い時間がかかります。一方、最近のデータに近いモデルを作ることができ、通常の練習は、1つのトレーニング時間の大幅な下落を作ることができるように、追加学習を行うために毎日、前日のデータを使用することです。

❷モデル分割:一つの項目がある場合、CTRのタスクは、ポイント単位であるため、モデル全体へのすべての呼び出しは、そのコストは膨大である場合は、1ワット、1ワット時間は、結果を計算する必要があります。実際には、ユーザーReprentationの必要性は一度だけカウントされます。したがって、我々はそう計算の赤い部分のみが一度分解し、青色を繰り返し複数の計算の結果の赤色部分を起動することができるモデルであろう。

3.米国のグループは、深い学習発注モデル「のようなあなたを推測します」

ビジネス目標、ヒットとシングルレートを分割によれば、2つの別々のトレーニング目標を形成することは訓練されたモデルの監督と指導として、自分の損失関数を確立することでした。共有ネットワーク層、タスク上のシングルクリックし、その発現を共有するタスク、およびBPパラメータ共通としてDNN前層は、二つのタスクに応じて算出された位相勾配に更新されます。完全に接続されている最後の層でのネットワーク分割は、個々の学習の損失に対応するパラメータは、より良好なそれぞれのフィッティングラベル配布に焦点を当てます。

学ぶことができる2つのトリックがあります。

❶欠損値のレイヤ:欠けている機能は、適応的な機能を対応する分布に応じた適切な値に学習することができます。

❷KL-発散バウンド:例えば、p-(クリック)* P(変換)などの物理的な意味が所属されるラベルまで、= P(オーダー)。p(受注)にP(変換)近い*ような予測されたp(クリック)することを、バウンドKLダイバージェンスを追加します。しかしながら、KL発散が非対称である、すなわち、KL(p || q)は!= KL(Q || P)ので、リアルタイムの使用ので、最適化はKL(p || q)は+ KL(Q || pは)。

4. GoogleのMMoE

マルチゲート混合・オブ・専門家とマルチタスク学習におけるモデル化タスクの関係

モデル()は、2つのタスクは、直接モデルの底部を共有し、最も一般的であるが、区別のみ、図()および最終処理中タワーAタワーBで使用され、その後それぞれ接続損失関数。

モデル(b)は、一般的なマルチタスク学習モデルです。私たちは、3つの入力のエキスパートに入力されているが、専門家の3つのパラメータを共有することはありません。入力ゲートの出力は、ゲート専門家は、各出力確率は、選択され、そしてその後タワーに3エキスパート加重合計出力が出力されます。少し注意を感じます

各タスクの著者は、ゲートのモデルが装備されているように、新しい方法のモデル(c)は、右の重量モデルが異なっている選択し、さまざまなタスクのために提案されています。異なるタスクのために、特定の出力ゲートkは、異なる専門家が選択される確率を表し、複数のエキスパートギブFK(X)の加重合計、および最終的な出力のための特定のモデルにタワーを出力します。

G(x)は、ゲートドアの出力、モデルパーセプトロン多層を表し、単純な線形変換層が追加ソフトマックス。

5.アリESM2

クリック後の行動モデルを経由して変換率予測

サンプルを購入するクリックが非常に小さいので、それはCVR予測モデルESMMマルチタスク学習に基づいて導入されたが、それはCVR推定され、ESMMモデルはまだ、まばらないくつかのサンプル問題に直面しています。あなたが商品を購入する前に、しかし、実際には、常に製品がカートやウィッシュリストに追加されたなど、他のユーザの行動の数があるでしょう。下図のように:

カートやウィッシュリストに追加行動のテキストは決定論的アクション(DAction)と呼ばれ、それはクラスの行為のための非常に明確な目的を表しています。相関を購入するために他のアクション(OAction)と呼ばれる他の人は偉大な動作はありませんが。オリジナルの印象は→→購入お買い物のプロセスをクリックしますということは次のようになります。

印象→→DAction / OAction→購入プロセスをクリックします。

ESM2モデル構造:

その後、モデルの複数のタスクは、次のとおりです。

❶Y1:CTR 

❷Y2:DActionの確率をクリックします 

❸Y3:購入するために確率DAction

❹Y4:購入するために確率OAction

そして、図からわかるように、3つの損失モデルの合計、計算プロセスは以下のとおりです。

❶  推定クリック率:確率印象→クリックして、ネットワークの第1の出力です。

❷  pCTAVRは:印象の確率→最初の2つのネットワークの出力から得られた結果を乗じ、→DAction、pCTAVR = Y1 * Y2をクリックします。

❸  pCTCVR:

4つの一般的なネットワークの出力から得られる - [* Y4 + Y2 * Y3(Y2 1)]、印象→→DAction / OAction→購入確率、pCTCVR = CTR * CVR = Y1 *をクリックします。ここでCVR =(1 - Y2)* Y4 + Y2 * Y3。クリックからDActionのためとOActionの反対のイベントにクリックしてください。

3 logloss三つの部分の損失の計算に続いて、次のとおりです。

加重三つの部分によって得られた最終損失関数:

6. YouTubeの多目的ランキングシステム

ウォッチ次にどのようなビデオを推薦する:Aマルチタスクは、システムのランキング

本論文では、映像シーンの勧告の有病率は2つの問題を解決します。

の目標❶映像勧告をマルチタスク。たとえば、ユーザーが見るかどうかを予測する必要がありますが、また、ビデオ用のユーザ評価を予測することを望むだけでなく、共有するというようにソーシャルプラットフォームかどうか、ビデオのアップローダーに焦点を当てます。

❷バイアスされた情報。自分が好きなので、それが位置偏っ質問に生成されたトレーニングデータにつながるページの最上部にお勧めという理由だけで例えば、ユーザーはおそらく、必ずしも必要ではないが、ビデオをクリックして見てしまう場合。

モデルの構造:

チャートショーからは、モデル全体は目標の2種類を予測することです。

❶婚約の目的:ユーザーが長い時間をクリックしてビデオを見ているかどうかの主要な予測因子。これにより、バイナリモデルは、ユーザーがクリックの挙動を予測するために、ユーザーが長い回帰モデルによるビデオを見たときに予測します。

❷満足度の目標:ビデオを見た後にユーザーからのフィードバックの主要な予測因子。ユーザがビデオのようにクリックし、回帰モデルにより、ビデオ用のユーザ評価を予測するかどうかを予測するために二分法のモデルを使用しました。

マルチゲート混合・オブ・専門家(MMoE)と浅い塔偏っ位置の排除:二つの重要なモデル構造があります。

MMoE構造:

浅タワー構造は次のようになります。

浅いタワーを通じて位置オフセット特性情報の入力を予測し、位置関連する主な機能のいくつかは、logitsの選択バイアスの出力値を相殺します。出力値は、浅いタワーの結果を検討する必要はありません、最後のサブタスクシグモイド層予測段階の前にモデルに適用されます。これは、位置オフセット情報は、主にユーザーがビデオを視聴することや、ユーザーがビデオのタスクを採点するようにクリックするかどうかを予測し、CTRの見積もりに反映されていることは注目に値する、あなたは場所にオフセット情報を追加する必要はありません。

7.ノウハウほとんどのランキングページ推奨モデル

図は推奨シナリオで使用され、ほとんど知られている多目的モデルで、予測タスクは、クリックスルー率、回収率、親指率、コメント率、8つの目標の合計含まれています。それはほとんどのアプローチはまた、埋め込みの前に下地層を知られており、DNN重量が共有に設定されていることが分かります。この損失関数は、いくつかの簡単な線形重みとタスクに提供することができます。オンラインのパフォーマンスラインの後:な親指など、いくつかの他の指標、ながらクリックスルー率は、基本的には変わらない、コレクションが劇的に増加しました。

8.水戸は、マルチタスクを注文するお勧めします

モデルの構造:

上記のように、最初のいくつかのマルチタスクNFwFM隠された層モデルが共有されています。最終推定値で完全に接続層の解像度によってそう熱心にそれぞれの任務に合わせて、複数のターゲット、学習のタスクに各パラメータの対応についてです。オンライン推定すると、モデルが推定一貫したモデルを推論サイズ、効率、およびオンラインヒットを変更しませんので。私たちは、露光に応じて再優先順位付けのための統合式を反映し、クリックスルータスクの割合に基づいてコンバージョン率を最適化すると同時に心配されていることを考える→腕時計の変換はCTRによって並べ替え。マルチタスクNFwFMは水戸秀コミュニティホームフィード、ライン上の推奨量のフルフロー関連の衰退に推奨しています。フローの一人当たりの閲覧を推奨長さ+ 10.33パーセントの減少に関連したホームフィードCTR + 1.93パーセント、+ 2.90パーセントの変換率の懸念は、コンバージョン率+ 9.30パーセントを懸念します。

9.まとめ

私たちがお勧めシナリオで同時に複数のターゲットを最適化する必要がある場合には、マルチタスク学習は便利になることができます。どのような状況の下で、質問、ポンダーそのターンは、学習をマルチタスクは、それに影響を与えていないのだろうか?実際には、考えることは非常に簡単で、複数のタスクの相関関係はそれほど強くないとき、彼らはこのように、最終的な結果に影響を与え、これらのタスクの間でお互いを破壊します。

:今、主に学習モデルをマルチタスク使用の下で締結

❶MLP底と埋め込みパラメータ共有、進化した各タスクの上部分岐、及び最終的に単純な損失関数は、それぞれのタスクの加重和です。

❷なアリESSM、ESSM2などの新しいマルチタスク機能の喪失、との関係によってモデル化。

❸なYouTubeのマルチタスクモデルとして、マルチゲート混合・オブ・専門家(MMoE)によって、この特定の重いマルチタスク構造を異なるタスクを学ぶことが右。

参考リンク:

https://arxiv.org/pdf/1804.07931.pdf

https://www.jianshu.com/p/35f00299c059

https://arxiv.org/pdf/1805.10727.pdf

https://www.jianshu.com/p/aba30d1726ae

https://tech.meituan.com/2018/03/29/recommend-dnn.html

https://zhuanlan.zhihu.com/p/70940522

https://arxiv.org/abs/1910.07099

https://www.jianshu.com/p/c06e9ed08dd1

https://www.jianshu.com/p/2f3dbbfc16a6

https://zhuanlan.zhihu.com/p/89401911

知っているほとんどの推薦ページランキング

オリジナルリンク:

https://zhuanlan.zhihu.com/p/78762586

https://zhuanlan.zhihu.com/p/91285359

公開された18元の記事 ウォンの賞賛588 ビュー103万+

おすすめ

転載: blog.csdn.net/hellozhxy/article/details/103979929