DeepFM論文翻訳

1. まとめ

  レコメンダー システムの CTR を最大化するには、ユーザー行動の複雑なクロス機能を学習することが重要です。大きな進歩にもかかわらず、既存の方法は、低次および高次のクロス機能の両方に対して、強い偏りがあるか、特殊な機能エンジニアリングを必要とするようです。この論文では、高次および低次のクロス機能を強化するエンドツーエンド モデルを導き出すことが可能であることを示します。本稿で提案するDeepFMモデルは、レコメンドシステムのFMの特徴学習機能とディープニューラルネットワークを組み合わせたもので、GoogleのWide&Deepモデルと比較して、DeepFMは広い部分と深い部分の入力を共有し、特徴のない元の特徴のみを必要とするエンジニアリング実験セクションでは、DeepFM の効果とパフォーマンスを示します。

2.はじめに

  クリックスルー率 (CTR) の予測はレコメンデーション システムにおいて非常に重要であり、そのタスクはユーザーがレコメンデーション アイテムをクリックする確率を推定することです。多くのレコメンデーション システムでは、目標はクリック数を最大化することであるため、ユーザーに返されるアイテムは推定 CTR によって並べ替えられたアイテムになります。他のレコメンデーション シナリオ (オンライン広告など) では、収益を増やすことも重要であるため、候補セット ソート戦略は次のとおりです: CTR ∗ 入札 CTR*入札クリック率入札どこ入札入札bi dは、ユーザーがアイテムをクリックしたときにシステムが得る収入です。どちらの場合も、重要なのは CTR を正しく見積もることです。

  ユーザーの行動の背後にある暗黙の相互機能を学ぶことが重要ですメインストリームのアプリ市場では、ユーザーは食事中にフード デリバリー アプリをダウンロードすることを好むことがわかりました。2 2二次交差特徴量「アプリ カテゴリ-タイム スタンプ」は、CTR 推定の重要な特徴量として使用できます。また、若い男性はシューティング ゲームや RPG ゲームが好きなので、3 33 次クロス特徴量「アプリ カテゴリ-ユーザーの性別-年齢」も、CTR 推定の特徴量として使用できます。一般に、ユーザーの行動の背後にある機能の交差は複雑になる可能性があり、低次および高次の機能の相互作用の両方が重要な役割を果たす必要があります。また、Google の Wide&Deep モデルは、低次*または高次クロス機能のみを使用する場合と比較して、低次クロス機能と高次クロス機能の組み合わせがさらに改善されることも示しています。

  主な課題は、フィーチャの交差を効果的にモデル化することにあります。専門家は、単純でわかりやすいフィーチャの交差を設計できます。ただし、他のほとんどの機能の相互作用はデータに隠されているため、アプリオリに識別するのが難しく (たとえば、古典的な関連付けルール「おむつとビール」はデータから抽出されたものであり、専門家によって発見されたわけではありません)、機械学習によってのみ検出できます 自動捕獲。大量のデータの場合、シンプルで分かりやすい特徴の交点であっても、専門家がすべてを網羅することはできません。

FTRL  などの線形モデルは優れたパフォーマンスを発揮しますが、このようなクロス フィーチャを学習することはできません. フィーチャ クロスを学習するには、ペアワイズ クロス フィーチャを手動で追加するのが一般的です。このアプローチは、高次の特徴の相互作用や、トレーニング データにまったくまたはめったに現れない相互作用のモデル化に一般化することは困難です。FM モデルは、特徴間の隠れベクトルの内積によって特徴クロスオーバーを実行します. FM は理論的には高次の特徴の相互作用をモデル化できますが、実際には、その複雑さが高いため、2 22 次機能の相互作用。

  ディープ ニューラル ネットワークには、複雑な機能の相互作用を学習できる可能性があります。CNN ベースのモデルは、隣接する機能間の相互作用に偏っていますが、RNN ベースのモデルは、順序の依存関係を持つクリック データにより適しています。FNN モデルは、DNN を適用する前に FM を事前にトレーニングしたため、最終的なクロス機能は FM の機能によって制限されます。PNN は、埋め込み層と全結合層の間に製品層を追加します。Cheng らは (Wide&Deep の記事で) 後に、PNN と FNN、および他のいくつかの深いモデルは、低次の交差機能をほとんどキャプチャしないが、これらの機能は CTR 推定にとって重要であると述べました。そのため、彼らは、Wide&Deep モデルを提案しました。このモデルでは、Wide 部分は依然として低次クロス機能を学習するために特徴量エンジニアリングに依存しています。

  既存のモデルは、低次または高次の機能相互作用に偏っているか、機能エンジニアリングに依存していることがわかります。この論文では、すべての注文のクロス機能を学習でき、元の機能のみを必要とするエンド ツー エンドの学習方法を提案します。

  • DeepFM は、FM のアーキテクチャとディープ ニューラル ネットワーク (DNN) を統合します。DNN のような FM のような低次クロス機能を学ぶ

    高次交差機能の学習。ただし、Wide & Deep モデルとは異なり、特徴量エンジニアリングなしでエンドツーエンドで学習できます。

  • ワイド部分とディープ部分が入力ベクトルと埋め込みベクトルを共有するため、DeepFM は効率的に学習できます。

3. 方法

  トレーニング データにnn が含まれているとします。nサンプル(χ, y) (χ,y)( x ,y )、ここでχ χχmm通常、ユーザーとアイテム itemを含むm特徴量のデータi t e mペア ペアy ∈ 0 , 1 y ∈ {0 , 1 }yε0 1は対応するラベルχ χχ には、カテゴリ機能 (性別、地域など) と連続機能 (年齢など) を含めることができます。カテゴリ機能はワンホットで表され、連続機能は独自の値、または離散化後のワンホット エンコーディングを使用します。このようにして、各トレーニング サンプルは( x , y ) (x, y)( x ,y ),その中x = [ xfield 1 , xfield 2 , . . . 、xfieldj、.. . , xfieldm ] x=[x_{field1},x_{field2},...,x_{fieldj},...,x_{fieldm}]バツ=[ ×フィールド1 _ _ _ _バツフィールド2 _ _ _ _... ,バツフィールド_ _ _ _ _... ,バツフィールド_ _ _ _ _] 、 ddですd-次元ベクトル、ここでxfieldj x_{fieldj}バツフィールド_ _ _ _ _χ χを意味しますχjjjの特徴。通常、○○xは高次元であり、非常にまばらです。

タスク: 特定のコンテキスト機能モデリングの CTR 推定。

3.1 ディープFM

  低次および高次の特徴の相互作用を学習するために、DeepFM モデル (ニューラル ネットワークに基づく FM モデル) が提案されています。

   DeepFM は、FM コン​​ポーネントとディープ コンポーネントの 2 つのコンポーネントで構成され、同じ入力を共有します。

  機能iiの場合私 w_iw一次重み、潜在ベクトルV i V_i他の特徴との関係を記述するV i V_iFM モデルは 2 次クロス フィーチャとして供給され、DNN モデルは高次クロス フィーチャとして供給されます。wi w_iを含むすべてのパラメータwV i V_iそして、次のネットワークパラメータW ( l ) , b ( l ) W(l),b(l)W ( l ) ,b ( l )は、次の予測モデルで共同でトレーニングされます:
y ^ = sigmoid ( y FM + y DNN ) ( 1 ) \hat y = sigmoid(y_{FM} + y_{DNN}) \qquad (1)y^=s i g m o i d ( yFM+yDNN _)( 1 )
そのうちy ^ ∈ ( 0 , 1 ) \hat y∈(0,1)y^ε( 0 ,1 )は予測 CTR、y FM y_{FM}yFMFM コン​​ポーネントの出力y DNN y_{DNN}yDNN _深いコンポーネントの出力です。

3.1.1 FM コン​​ポーネント

ここに画像の説明を挿入

  FMコンポーネントは実際にはRendleによって提案されたFMモデルです. まばらなデータの場合, FMモデルは2次交差特徴をより効果的に学習できます. FMモデルは潜在ベクトルV i V_iを使用します.およびVj V_jiiを記述する内積jjjの 2 次交差機能。これの利点は、機能iijjjもトレーニング サンプルに表示されます。(注: 協調フィルタリングの考え方に似ています)。図に示すように、FM コン​​ポーネントの出力は、加算ユニットといくつかの内積ユニットの合計です。

y FM = < w , x > + ∑ i = 1 d ∑ j = i + 1 d < V i , V j > xi ⋅ xj ( 2 ) y_{FM} = <w,x> + \sum_{i= 1}^d\sum_{j=i+1}^d<V_i,V_j>x_i・x_j \qquad (2)yFM=<w バツ>+私は= 1dj = i + 1d<>バツバツ(2)
其中, w ∈ R d , V i ∈ R k w∈R^d,V_i∈R^k wεRdεRkkkk は既知であり、簡潔にするために、ここではバイアス項は無視されます),⟨ w , x ⟩ ⟨w,x⟩w ,x は一次特徴量で、内積は二次交差特徴量です。

3.1.2 ディープ コンポーネント

ここに画像の説明を挿入

  ディープ コンポーネントは、高次の特徴の相互作用を学習するためのフィード フォワード ニューラル ネットワークです。示されているように、データ レコード (ベクトル) がニューラル ネットワークに入力されます。画像や音声データとは異なり、CTR によって推定される元の特徴は、一般に非常に疎で高次元であり、カテゴリ特徴と連続特徴が混在し、グループ化できるという特徴があります。したがって、DNN にアクセスする前に、埋め込み層を通過して低次元の密なベクトルに変換する必要があります。

ここに画像の説明を挿入

上の図は、入力層から埋め込み層までのサブネットワーク構造を示しています。注意すべき点が 2 つあります。

  • 入力特徴データの長さは異なる場合がありますが、埋め込み後の長さは同じです ( kkk
  • FM 成分の潜在ベクトルVVV は、ここで埋め込みベクトルを計算するために使用されます。
  • FNN モデルでは、ベクトルVVVは FM モデルで事前に学習する必要がありますが、DeepFM モデルでは事前トレーニングは不要で、FM コン​​ポーネントと Deep コンポーネントを組み合わせてトレーニングします。

埋め込みレイヤーの出力を次のように記録します:
a ( 0 ) = [ e 1 , e 2 , . . , em ] ( 3 ) a^{(0)} = [e_1,e_2, ...,e_m] \ qquad (3)a( 0 )=[ e1e2... ,eメートル](3)
其中, e i e_i e 是第 i i i個の特徴の埋め込みベクトル。m は特徴の数です。次に( 0 ) a^{(0)}a( 0 )フィード DNN、フォワード プロセスは次のとおりです。
a ( l + 1 ) = σ ( W lal + bl ) ( 4 ) a^{(l+1)}=\sigma (W^{l}a^{ l }+b^{l}) \qquad (4)a( l + 1 )=s ( Wl+bl )( 4 )
その中で、lllは DNN の深さ、σ σσは活性化関数、a(l)、W(l)、b(l) はllthレイヤーl、モデルの重み、およびバイアス項目の出力。その後、低次元の密なベクトルが生成され、最後にシグモイド関数に渡されて推定 CTR 値が計算されます:
y DNN = W ∣ H ∣ + 1 ⋅ a ∣ H ∣ + b ∣ H ∣ + 1 y_{DNN } =W^{|H|+1}·a^{|H|}+b^{|H|+1}yDNN _=WH + 1a_+bH + 1
ここで、∣ H ∣ |H|H ∣ は隠れ層の数です。

FM コン​​ポーネントとディープ コンポーネント間で機能の埋め込みを共有することには、次の 2 つの利点があることに注意してください。

1.元の特徴量から高次と低次の交差特徴量を学習できます。

2. wide&deep のような特別な機能エンジニアリングは必要ありません。

3.2 他の深層モデルとの関係

ここに画像の説明を挿入

FNN:図 5 の左側に示すように、FNN は FM モデルを事前にトレーニングする必要がありますが、これには 2 つの欠点があります。 1. 埋め込みパラメーターは FM によって深刻な影響を受けます。2.導入された事前トレーニングフェーズは、効率に深刻な影響を与えます。また、FNNは高次交差特徴量しか学習できないのに対し、DeepFMは事前学習が不要なだけでなく、高次交差特徴量と低次交差特徴量を同時に学習できます。

PNN:高次交差特徴を学習するために、PNN は埋め込み層と最初の隠れ層の間に製品層を導入します. 異なる製品操作に従って、IPNN、OPNN、および PNN* に分けられます。IPNN は内積ベース、OPNN は外積ベース、PNN* は両方ベースです。FNN と同様に、PNN も低次交差特徴を無視します

  計算効率を改善するために、著者は内積と外積の近似計算を提案します: 1) 内積はいくつかのニューロンを削除することによって近似されます; 2) 内積は mm を除算することによって計算されますm kk_次元特徴ベクトルは、外積を近似するためにk次元ベクトルに圧縮される。ただし、外積の近似計算では多くの情報が失われ、結果が不安定になるため、外積は内積よりも信頼性が低いことがわかりました。内積は信頼性が高くなりますが、積層の出力が最初の隠れ層に完全に接続されているため、計算の複雑さが依然として高いという問題があります。PNN とは異なり、DeepFM の製品層の出力は、最終出力層 (1 つのニューロン) にのみ接続されます。FNN と同様に、すべての PNN は低次の特徴の相互作用を無視します。

Wide&Deep: Wide & Deep は、低次と高次の機能の相互作用を同時にモデル化するために Google によって提案されました。幅の広い部分には、手動の機能エンジニアリングが必要です。DeepFM は生の機能のみを必要とします。ワイド部分の LR を FM に置き換えると、DeepFM と非常に似ていますが、DeepFM の FM コン​​ポーネントとディープ コンポーネントは埋め込み機能を共有するため、高次と低次のクロス機能をより正確にモデル化できます。

まとめ:まとめとして、4 つの側面における DeepFM と他の深層モデルとの関係を表に示します。DeepFM は、事前トレーニングと機能エンジニアリングを必要とせず、低次と高次の機能相互作用の両方をキャプチャする唯一のモデルであることがわかります。
ここに画像の説明を挿入

4.実験

  このセクションでは、提案した DeepFM を他の最先端のモデルと経験的に比較します。評価結果は、提案した DeepFM が他のどの最先端モデルよりも効果的であり、DeepFM の効率が他の最良のモデルに匹敵することを示しています。

4.1 実験計画

データセット

次の 2 つのデータセットで DeepFM の有効性と効率を評価します。

Criteo データセットには4500 4500が含まれています4,500万人のユーザー ヒット レコード、13 1313連続機能、26 2626 のカテゴリ機能。データセットを 2 つのグループに分けます:90 % 90\%90%トレーニング、10% 10\%10%テスト。

企業データセットは、トレーニング用に企業のゲーム センターから 7 日間連続してユーザー クリック データを収集し、テスト用に翌日のデータを収集しました。合計約10 1010億個のデータ。これらには、アプリの特徴 (ID、カテゴリなど)、ユーザーの特徴 (ユーザーがアプリをダウンロードするなど)、コンテキストの特徴 (操作時間など) が含まれます。

評価指標:

  • AUC、ログロス AUC、ログロスAUC ログロス_ _ _ _ _ _

モデル比較

  • LR、FM、FNN、PNN (3 つのバリアント)、Wide&Deep (2 つのバリアント)、DeepFM の合計 9 つのモデルが比較されました。

その中でWide&Deepの2つのバリエーションは、ワイド部分のLRをFMに置き換えるもの。ここでは、それぞれ LR & DNN および FM & DNN と呼ばれます。

パラメータ設定

Criteo データセットでは、FNN と PNN のパラメーター設定を参照します。

  • ドロップアウト:0.5 0.50.5
  • ネットワーク構成:400 − 400 − 400 400-400-400400400400
  • オプティマイザー: Adam
  • アクティベーション関数: IPNN の場合は tanh、その他のモデルの場合は relu
  • 公正な期間には、DeepFM もこれらのパラメーターを使用します。LR と FM のオプティマイザは、それぞれ FTRL と Adam です。FM の潜在次元は10 1010

4.2 性能比較

効率比較

公式如下
∣ deep CTR モデルの訓練時間 ∣ ∣ LR の訓練時間 ∣ \frac{|training\ time\ of\ deep\ CTR\ model|}{|training\ time\ of \ LR |}L Rトレーニング時間_ _ _ _ _ _   ディープCTRモデルトレーニング時間_ _ _ _ _ _ _ _ _ _ _      _

CPU と GPU のレビューが含まれます。

ここに画像の説明を挿入

  • FNN の事前トレーニングは効率に影響します。
  • GPU での IPNN および PNN* の高速化は明らかですが、効率の悪い内積演算は依然として効率に影響を与えます。
  • 実験の 2 つのグループでは、DeepFM の効率は基本的に最適です。

効果比較

結果は次のとおりです。
ここに画像の説明を挿入

2 つのデータセットに対する各モデルの効果を表 2 に示します。

  • クロス機能を学習すると、CTR が向上します。LR (交差機能を考慮しない) が他のモデルよりも悪いことがわかります。最良のモデルとして、DeepFm は LR と比較して AUC を0.82 % 0.82\%改善します0.82%2.6% 2.6\%2.6% (ログロスが1.1 % 1.1\%増加1.1%4.0% 4.0\%4.0%)。

  • 高次と低次のクロス機能学習を組み合わせることで、CTR を向上させることができます。低次の交差特徴のみを考慮する FM や、高次の交差特徴のみを考慮する FNN、IPNN、OPNN、PNN* よりも、DeepFM モデルが優れていることがわかります。準最適モデルと比較して、DeepFM モデルは Company* および Criteo データセットの AUC を0.34 % 0.34\%増加させました0.34%および0.41% 0.41\%0.41% (ログロスが0.34 % 0.34\%増加0.34%と $0.76%4)

  • 埋め込みを共有して高次と低次のクロス機能を共同でトレーニングすることで、CTR を向上させることができます。2 つのワイド & ディープ モデル バリアントとの比較。AUC が0.48 % 増加 0.48\%0.48%および0.44% 0.44\%0.44% (ログロスが0.58 % 0.58\%増加0.58%と $0.80%4)

  全体として、提案された DeepFM モデルは、Company* データセットで AUC と Logloss をそれぞれ0.37 % と 0.37\%上回っています。0.37%および0.42% 0.42\%0.42% . 実際、オフラインの AUC 評価が少し改善されると、オンラインの CTR が大幅に向上する可能性があります。[Cheng et al., 2016] で報告されているように、Wide & Deep は LR と比較して AUC を0.275 % 0.275\%0.275% (オフライン)、オンラインの CTR が 3.9 % 増加3.9\%3.9%Company* の App Store は毎日数百万ドルの売り上げを上げているため、クリック率が 1% 向上するだけでも、毎年数百万ドルの追加収益が発生する可能性があります。

4.3 ハイパーパラメータ学習

Company* データセットに対するさまざまなディープ モデルのさまざまなハイパーパラメーターの効果を調べます。シーケンスは次のとおりです。

  1. 活性化機能;
  2. ドロップアウト率;
  3. 各層のニューロンの数。
  4. 隠れ層の数;
  5. ネットワーク形状。

活性化機能

ここに画像の説明を挿入

  PNN の論文では、シグモイド関数よりも relu と tanh の方が Deep モデルに適しています。図 7 は、relu と tanh の効果の比較です。IPNN を除いて、relu は tanh よりもうまく機能します。考えられる理由は、relu がスパース性を導入することです。

ドロップアウト
ここに画像の説明を挿入
  ドロップアウトとは、ニューロンがネットワークに残る確率を指し、正則化手法です。ネットワークのパフォーマンスと精度は保証されています。Dropout を1.0 、 0.9 、 0.8 、 0.7 、 0.6 、 0.5 1.0 、 0.9 、 0.8 、 0.7 、 0.6 、 0.5 に設定してみました1.0、0.9、0.8、0.7、0.6、0.5 _ _ _ _ _ _ _ _ _ _ 図 8 に示すように、適切なドロップアウトを設定することで、各モデルは最適な効果を得ることができます。実験結果は、適切なランダム性を追加することにより、モデルのロバスト性を強化できることを示しています。

各層のニューロン数

ここに画像の説明を挿入

  層ごとのニューロンの数を増やすと、他の要因が一定のままである場合に複雑さが生じます。図 9 からわかるように、ニューロンの数を増やすことが常にメリットをもたらすとは限りません。たとえば、各層のニューロン数が400 から 400 に変化した場合400 が800に増加800ニューロンの数が 800 の場合、DeepFM のパフォーマンスは安定しますが、ニューロンの数を400 から 400 に400 が800に増加800800では、OPNN のパフォーマンスはさらに悪化します。これは、過度に複雑なモデルは過剰適合しやすいためです。私たちのデータセットでは、各レイヤーは200 200 です200または400 400400ニューロンは適切な選択です。

隠れ層の数

ここに画像の説明を挿入

  図 10 に示すように、隠れ層の数を増やすと最初はモデルのパフォーマンスが向上しますが、隠れ層の数を増やし続けるとパフォーマンスが低下します。この現象もオーバーフィッティングによるものです。

ネットワーク構造

  固定長、増加、減少、ダイヤモンド構造の 4 つの異なる形状のネットワーク構造をテストしました。ネットワークの形状を変更するときは、隠れ層の数とニューロンの数を一定に保ちます。たとえば、隠れ層の数を3 3とします。3.ニューロンの総数は600 600600 . すると、4 44 つのネットワーク構造は次のとおりです。 固定長 (200 − 200 − 200 200-200-200200200200 )、増加 (100 − 200 − 300 100-200-300100200300 )、減少 (300 − 200 − 100 300-200-100300200100 )、ひし形 (150 − 300 − 150 150-300-150150300150)。図 11 から、固定長の形状が他の形状よりも大幅に優れていることがわかります.この結論は、以前の Larochelle の 2009 年の論文の結論と一致しています.
ここに画像の説明を挿入

5. 関連作品

  この論文では、CTR予測のために新しいディープニューラルネットワークが提案されています。最も関連性の高い分野は、レコメンデーション システムにおける CTR 予測とディープ ラーニングです。このセクションでは、これら 2 つの領域に関連する作業について説明します。

  CTR 予測は、レコメンデーション システムで重要な役割を果たします。一般化された線形モデルと FM に加えて、ツリーベースのモデル、テンソルベースのモデル、サポート ベクター マシン、ベイジアン モデルなど、CTR 予測用にいくつかのモデルが提案されています。レコメンダー システムにおけるディープ ラーニングの働き セクション 1 とセクション 2.2 では、CTR 予測のためのディープ ラーニング モデルがいくつか言及されているため、ここでは説明しません。CTR 予測以外の推奨タスクでは、いくつかの深層学習モデルが提案されています (例: [Covington et al., 2016; Salakhutdinov et al., 2007; van den Oord et al., 2013; Wu et al., 2016; Zheng et al. al., 2016; Wu et al., 2017; Zheng et al., 2017])。[Salakhutdinov et al., 2007; Sedhain et al., 2015; Wang et al., 2015] は、ディープ ラーニングを使用して協調フィルタリングを改善することを提案しました。[Wang and Wang, 2014; van den Oord et al., 2013] の著者は、ディープ ラーニングを使用してコンテンツの特徴を抽出し、音楽レコメンデーションのパフォーマンスを向上させています。[Chen et al., 2016] は、表示される広告の画像の特徴と本質的な特性を考慮するディープ ラーニング ネットワークを設計しました。[Covington et al., 2016] は、YouTube 動画レコメンデーション用の 2 段階のディープ ラーニング フレームワークを開発しました。

6 結論

  このホワイト ペーパーでは、CTR 予測用のニューラル ネットワーク ベースの FM モデルである DeepFM を提案して、最先端のモデルの欠点を克服し、より優れたパフォーマンスを実現します。DeepFM は、Deep コンポーネントと FM コン​​ポーネントを共同でトレーニングします。次の利点により、パフォーマンスが向上します。

  1. 事前トレーニングは必要ありません。
  2. 高次機能と低次機能の相互作用の両方を学習します。
  3. 特徴エンジニアリングを回避するために、特徴埋め込みの共有戦略を導入します。DeepFM と最先端のモデルの有効性と効率を比較するために、2 つの実際のデータセット (Criteo データセットと商用 App Store データセット) で広範な実験を行います。私たちの実験結果は次のことを示しています: 1) DeepFM は両方のデータセットの AUC と Logloss で最先端のモデルよりも優れている; 2) DeepFM の効率は最先端のディープ モデルに匹敵する.

  今後の研究には 2 つの興味深い方向性があります。1 つは、戦略 (プーリング層の導入など) を検討して、最も有用な高次の特徴の相互作用を学習する能力を強化することです。もう 1 つは、大規模な問題に対して GPU クラスターで DeepFM をトレーニングすることです。

おすすめ

転載: blog.csdn.net/weixin_44852067/article/details/130151233
おすすめ