このシリーズの第六の記事、一緒に論文を読む〜
I Caishuxueqian、歓迎と交流の不備を指摘しています。
今日は別のディープモデルNFM(シリアル構造)を共有することができます。NFMはまた、DCN(グーグル)、DINを(共有されます、その後(ひっくり返す)前述&ワイドディープ(グーグル)、DeepFM(華為+ HIT)、PNNと比較して、問題のFM + DNNモデリングで来て、アリ)、など、NFMことの利点は何であるが、表情で私たち以下のモデルに行ってきました。
原文:スパース予測分析のためのニューラル因数分解マシン
住所:https://arxiv.org/pdf/1708.05027.pdf
1、問題の起源
決まり文句、データ機能に話す:カテゴリ機能で広告の多くについて、特徴の組み合わせも非常に多くあります。伝統的なアプローチは、人工的に、選択を備えていますより多くの重要な機能を選択するためにエンジニアリングや決定木によって特徴付けられます。しかし、このアプローチには欠点があり、次のとおりです。トレーニングは存在しない機能の組み合わせを設定して学ぶことができません。
近年では、埋め込みベースの方法は、高次元のスパース低次元のベクトル空間_embed_隠し入力を密にするために、トレーニングを学ぶことができるモデルは機能のない組み合わせは存在していない設定して、主流になり始め。
埋め込みベース大まかに二つのカテゴリーに分けることができます。
1.factorizationマシンベースの線形モデル
2.neuralネットワークベースの非線形モデル
(具体的には、もはや開始されました)
* * *
FM:リニアファッションが現実と内部構造の複雑さを捕捉するためのインタラクティブ、非線形データを備え、二次の学習は表現力ではありません。
奥行きのネットワーク:例えば、ワイド&ディープとDeepCross、単に機能のいずれかの間の相互作用を考慮していませんが、訓練し、最適化する特性と非常に困難なの非線形相互作用のネットワーク構造の深層を学ぶために特徴ベクトルを埋め込むステッチ。
及びNFM直接ニューラルネットワークアプローチにスプライシング入力ベクトルを放棄埋め込み、組み合わせの機能をモデル化する二次の埋め込み層を形成した後_Bi-Interaction_動作を増加させました。これは大幅な機能のより高次の非線形の組み合わせを学習する層の背後に隠す能力を向上させる、式の情報入力ローレベルがより豊富であることができます。
2、NFM
2.1 NFMモデル
そしてFM(因数分解マシン)と同様の、NFMは、実際の固有ベクトルを使用。入力としてスパースベクトルx∈Rn所与、請求= 0特徴値Xiはi番目の特徴は、NFM推定目的存在しないことを示します。
前記第1項と第2項は、線形回帰の一部であり、FMと同様であり、前記総重量偏差FMアナログ重量データ。第三項f(x)は、モデリング機能の相互作用のためのコアコンポーネントNFMあります。これは、多層フィードフォワードニューラルネットワークです。図2に示すように、次に、我々は前後1層f(x)がデザインを設定します。
次のように図全体の構造モデルは次のとおりです。
2.1.1埋め込み層
他のモデルは、処理のために低次元空間に埋め込まれた緻密なする入力変換を埋め込み、入力としてDNNを疎。プロセスモデルは、実際の機能を大切にすることができるように、ここで若干異なる処理をした、元の特徴量は、ベクトル埋め込み掛け。
2.1.2バイインタラクションレイヤー
バイバイリニア略称であり、この層は、実際には次のように定式化し、多くのベクトルにベクトルを変換プーリング動作層、次のとおりです。
FBI埋め込み全入力ベクトル、XI、XJは、対応する特徴ベクトルに埋め込まれているVJ特性値、VI、です。これは、乗算演算が中間位置に対応表します。したがって、元のベクターは、乗算結果の位置に対応し、任意の二つの組み合わせを埋め込み、新たなベクトルを取得している。これらの新しいベクトルを加算、出力が双方向の相互作用です。この出力は、唯一のベクトルです。
注:バイ相互作用は、追加のパラメータを導入しないと、その計算の複雑さは、参照の線形FMの最適化は、以下の単純化です。
2.1.3隠しレイヤ
これは、基本的には他のモデル、機能の高次の組み合わせを学ぶために、隠れ層の蓄積と同じです。一定の選択の一般的な効果は良いです。
2.1.4予測レイヤ
最後に、1つの隠れ層Z1から次のように定式化最終予測結果出力層へ:
前記Hは、中間ネットワークパラメータです。次のように定式上記層隠れ層の重み重み行列を考慮すると、F(X):
実際には、FMはまた、ニューラルネットワークアーキテクチャとして見ることができるように余分なパラメータパラメータは、実際に、層を隠されている、ここでFMに比べ、NFMは、隠れ層を除去することです。
2.2ワイド対NFM&ディープ、DeepCross
エッセンス:
NFM最も重要な違いは、バイインタラクションレイヤーということです。ワイド&深くDeepCrossは、BI-インタラクションスプライシング作業(連結)で置換されています。
最大の欠点は、それが連結操作は、アカウントに特性情報の任意の組み合わせを取ることはありませんので、我々は、特徴の組み合わせを学ぶためにMLPの背面のみに依存、残念ながら、MLPは最適化が非常に困難な学習ということです。
使用バイ相互作用は、組み合わせて考慮二次機能を取るような入力は、単純なモデル(のみ1つの隠れ層の実験)を使用することが可能である後部のMLP部分を学ぶために圧力を低下させる、より多くの情報を含ん表し、よりよい達成効果。
3、概要は(等の比較実験および特定の実装の詳細は、オリジナルの論文を参照してください)
次のようにNFM主な機能は次のとおりです。
1. NFMコアはNNにおける双一次相互作用(双方向インタラクション)プーリング操作が導入されます。これに基づき、NNは、特徴の組み合わせが低レベルでより多くの情報が含まれます学ぶことができます。
2.深めFM経由での機能の高次非線形組み合わせを学びます。
3.上記モデル、モデル構造軽量、簡素(浅い構造)に比べてNFM DNN、より良いパフォーマンス、トレーニング簡単パラメータを調整します。
だから、それは各モデルの局所的な焦点である埋め込みベクトルを、対処する方法ことを除いて、まだFM + DNNルーチンの組み合わせです。今DNNと高次元のスパースを処理する方法の業界のデータを見て、まだ暗い中に単一の普遍的な方法は、ありません。
デモDeepFMを達成し、興味を持って子供用の靴は、私を見ることができますGitHubの。