CTRは見積り・ワイド&ディープ解析モデルの推薦システム(論文を読みます)

Googleの論文の1の16年間について学ぶためにFMとFNN / PNN紙を読んだ後、記事の伝統的なLRとDNNの組み合わせはなく、唯一のフィッティング能力LRを保持するために、広い&深いモデル(並列構造)を構成しますDNNは汎化能力を持っており、別々のトレーニングモデル、することができます簡単に反復モデル、次の小節のビューを必要としません。

より良い読書体験、クリックしてくださいここに

原文:推薦システム用ワイド&ディープラーニング

住所:[https://arxiv.org/pdf/1606.07792.pdf](https://arxiv.org/pdf/1606.07792.pdf)

 

1、問題の起源
 
1.1背景
この記事はもちろん、予測CTRに適用され、推薦システムのアプリケーションのために提示されます。最初の導入された2つの用語は、紙全体に表示される:*暗記(時間メモリに翻訳される)の相関関係は、過去のデータからの項目または特徴の間に見出されました。*一般化(時間一般に翻訳される):転送の関連性とほとんど又は全く履歴データに存在する特徴の新規な組み合わせを見出しました。
メモリーの下でどのようなことができ、進化の人間の認知学習過程で、人間の脳は非常に複雑である(記憶)毎日(スズメは飛ぶことができる、ハトが飛ぶことができる)と一般化(一般起こる:説明するの例を与えるために、前に見たことがない何かに)この知識(翼のある生き物が飛ぶことができます)。しかし、一般化ルールは時々、特に正確な、時には間違った(動物の翼はそれを飛ぶことができる)ではありません。あなたが一般化(一般化ルール)のルールを修正する(暗記)を覚えておく必要がある。この時間は、(ペンギンの翼を持っていますが、飛ぶことができない)例外と呼ばれます。これは、その理由や意味の暗記と一般化です。
 
1.2、既存モデルの問題
  • LR単純な線形モデルでは、モデルは、高速な解釈がある非常に良いフィッティング能力を持っていますが、LRモデルは線形モデル、限られたスキル、汎化能力を達成するために、具体的には、クロスの特性を必要とする、エンジニアリングの特性を行う必要があり、弱いです良い効果は、工業的場面で、機能の数は数十万人、何千人もの数百に達することが多いが、その機能は必ずしも良い結果を達成するために、行うのは難しい作品になります。
  • DNNモデルが自動的に良い一般化して、特に高次機能の相互作用を学ぶことができ、機能間の相互作用を学ぶために、DNNの機能を横断することができ、あなたは非常に良い結果を得ることができ、あまりにも洗練されたエンジニアリング機能を実行する必要はありません。容量。また、DNNは、埋め込み層を増加させることにより、効果的に疎なデータ特性の問題を解決することができ、爆発を防止する機能。汎化推薦システムは非常に重要であり、推奨項目の多様性を向上させることができますが、フォトジェニックデータをフィットDNNは、比較LRに弱くなります。
  • 要約すると:
  1. 線形モデルは、トレーニングセット内に存在しない機能の組み合わせを学ぶことができません。
  2. FMまたはDNNあなたは、トレーニングセット内に存在しない機能の組み合わせを学ぶことができますが、それはベクトルを埋め込む学習を通じて過度の一般化されるであろう。
推薦システムのフィット感と一般化を向上させるために、フィット感と汎化能力、広い&深いLRを向上させながら、LRとDNNは、組み合わせることが可能とDNNが結合することで、幅の広い部分がLRで、深い部分は、DNNです両方の出力の合成結果。
 
2、モデルの詳細
 
:簡単に言うと、再び二つの用語達成:暗記大規模な入力がまばらである前に処理を:線形モデル+クロス機能。暗記持ってきて、メモリ容量は、非常に効率的と解釈されます。しかし、一般化(一般化)は、より多くのマニュアル機能の動作を必要とします。
汎化は:これとは対照的に、DNNはほとんどエンジニアリングを提供しています。組み合わせ密な埋め込みの低緯度を通じて、より深く隠された機能を学ぶことができます。しかし、欠点は、ビット過剰一般化(overgeneralization)です。推奨システム次のようにユーザーに勧告を与えるので、該当事項はありません特にユーザ項目マトリックスは比較的疎であり、高いランク(高ランク行列)
両者の違い:暗記はより保守的になりがち、それはアイテムのユーザーの行動の前にお勧めしていました。比較すると、一般化はより多くの推薦システム(多様性)の多様性を増加させる傾向があります。
 
2.1、広くて深いです
 
ディープ&ワイド:ワイドディープ&2つの部分から成ります:線形モデル+ DNN部分。、上記の暗記や一般化のバランスを利点を兼ね備えています。理由:統合された暗記とgeneralizatioの利点と推薦システムを提供しています。実験では、ワイドのみ深い専用モデルと比較して、本明細書に記載のワイド&ディープ著しく改善します。図は、全体的な構成モデルであります:

 

 
図から分かるように、特別なワイドニューラルネットワークは、彼は入力と出力が直接接続されている一般化線形モデルのカテゴリに属しています。ディープはディープニューラルネットワークを指し、これはよく理解されています。暗記のためのワイド化線形モデル、一般化のためのディープニューラルネットワーク。左はワイドのみで、右側が深いだけ、ミドルワイド&ディープです。
 
2.2、クロス積の変換
 
ワイド紙は、特徴の組合せを生成するための変換に言及され続け、ここでは非常に重要です。これは次のように定義されます。

 

ここで、kは、特徴のk番目の組み合わせを表します。私は、i番目の次元特徴の入力Xを表します。C_kiは、i番目の次元の特徴が特徴のk番目の組合せに参加するように構成されているかどうかを示します。Xは、寸法Dの入力を表します。機能の構成の組合せに参加する次元のどのような機能最後に、これは、人工的な設定(プロジェクトは、人間の特性を必要とすることを意味する)、式に反映されません。
実際には、我々はワンホット話をされました前と後の特性の組み合わせであるような複雑な式:ちょうど入力サンプルXの機能を性別で=女性と特性言語= ENが1あり、機能AND(性別の新しい組み合わせ=唯一の1のための女性、言語= EN)。値はその上の2つの機能を乗じて限り。(このようなクロス積の変換は、特徴の特性バイナリ組み合わせを学び、非線形モデルを増大することができます)
 
2.3、ワイドコンポーネント
 
ワイドパート上述したように、実際に一般化線形モデルです。使用機能が含まれます:*生の入力を:元の特徴を
  • クロス積の変換:機能の上記組み合わせ
説明するために同じ例を使用して:あなたは(あなたが食べ物を食べたい)クエリをモデル化しました、モデルが、あなたはこの勧告を消費/購入、あなたのグルメを与えることを返します。換言すれば、実際にシステムを学ぶことが推奨される条件付き確率である:P(消費|クエリ、項目)。幅広部暗記は、いくつかの例外かもしれません。たとえば、AND(クエリは=「フライドチキン」、項目は=「チキンチャーハン」)ビューの文字の観点から非常に近いが、しかし、完全に異なる実際には何か、そしてワイドこの組み合わせは良くありません覚えていることができ、あります特殊な場合、次回再オーダーフライドチキン、私はあなたにご飯をフライドチキンをお勧めしません。
 
2.4、ディープコンポーネント
 
右のモデルに示すように、低緯度密な表現を通じて学習の深い部分に、各クエリやアイテムのために(もベクトルを埋め込むと呼ばれる)一般あなたは文字のいくつかはあまり関係思えるお勧め与えていますが、必要があるかもしれません。例えば:あなたはフライドチキンやハンバーガー非常に近いスペースを埋め込み、フライドチキンをしたいので、私はあなたがハンブルクをお勧め与えます。
埋め込みベクトルがランダムに損失を逆転させるため、最終的なトレーニングに応じて初期化され、更新されています。これらの低次元の密な埋め込みベクターは、第一中間層として入力されます。隠れ層の活性化関数は、通常ReLU使用されます。
 
3、モデルのトレーニング
 
オリジナルのまばらな機能でトレーニングは、このような問合せ=「フライドチキン」項目=「チキンチャーハン」などの2つのコンポーネントで使用されます。 

 

トレーニングは、損失が最終勾配、広くて深いバックプロパゲーション二つの部分に応じて算出される場合、各々がそれらのパラメータを訓練します。言い換えれば、2つのモジュールが一緒に訓練を受けている(すなわち、紙の共同訓練)、これは統合のモデルではないことに注意してください。
  • 機能の広い部分の組み合わせがあり覚えて、それらのまばらな、特定のルールを
  • 埋め込みによって部分的にディープ一般化は、いくつかの商品をお勧めします
機能を組み合わせることにより、広いモジュールは、いくつかの特定の組み合わせを学ぶことは非常に効率的であることができ、それはまた、彼のトレーニングセット内に存在しない機能の組み合わせを学習していないにつながりました。幸いなことに、深いモジュールは、この欠点を補います。それは一緒に訓練されているので、また、広くて深いサイズが縮小されています。広い部品不足が唯一のライン上の深い要素を埋めるために必要があるので、彼らは、クロス製品機​​能の変換ではなく、フルサイズのワイドモデルのあまりを必要としています。具体的なトレーニング方法と実験原著論文を参照してください。
 
4、要約
 
欠点:プロジェクトの広い部分は、まだ人間の特性が必要です。長所:暗記の統一モデリングおよび一般化を達成します。同時に機能の低水準と高次の組み合わせを学ぶために

 

おすすめ

転載: www.cnblogs.com/Jesee/p/11237084.html