記事リンク: https://arxiv.org/pdf/2109.12843.pdf
この記事は、清華大学のLi Yong氏と中国科学技術大学のHe Xiangnan氏による最新の推奨事項におけるGNNの要約です。
推薦システムの歴史
シャローモデル
初期のレコメンデーション モデルは、主に相互作用の類似性を計算することによって相乗効果シグナルを捉えていましたが、その後、Netflix のコンテストでの行列因数分解モデルの成功により、レコメンデーション システムは表現学習問題に変換されました。
ニューラルネットワークモデル
複雑なユーザー行動や大量のデータ入力をモデル化するには浅いモデルだけでは不十分であり、ニューラル協調フィルタリングNCFや深因数分解マシンDeepFMに代表されるニューラルネットワーク手法が開発されています。
グラフニューラルネットワークモデル
従来のニューラル ネットワークではデータ内の高次の構造情報を学習することが困難ですが、グラフ ニューラル ネットワーク GNN はメッセージ パッシング メカニズムを使用して近傍情報を統合し、ノードが多層スタッキングを通じて高次の近傍情報にアクセスできるようにします。そのため、グラフニューラルネットワークモデルは近年レコメンダシステムで広く使用されており、最先端の手法となっています。
GNN
- グラフ構築
- 同型グラフのエッジとノードのクラスは 1 つだけです
- 異種グラフのエッジとノードには複数のタイプがあります
- ハイパーグラフ内のエッジは複数の点をリンクできます
-
グラフニューラルネットワークのモデリング、メッセージパッシング集約メカニズム
-
最適化する方法
- リンク予測: BPRloss
- ノード分類: ログロス
- なぜGNNがレコメンドシステムに適しているのか
- 構造化データ
レコメンデーション システムには、大量のデータとさまざまな種類 (インタラクション、ユーザー ポートレート、製品属性など) が含まれており、グラフを統合して高品質の埋め込みを取得できます。
- 高次の結合
GNN レイヤーを積み重ねると、高次の関連付けが自然に導入され、協調フィルタリング信号が強化されます。
- 監視信号
インタラクションの数がまばらであるなどの監視シグナル。GNN は、教師あり信号が少ないという問題を軽減するために、表現学習で半教師あり信号を利用します。
- 推奨システムに GNN を適用する際に考慮する必要があるいくつかの問題
構成 -> メッセージ パッシング集約メカニズム -> モデルの最適化 -> トレーニングと推論の効率
推奨システムの分類
推薦システムのさまざまな段階に応じて
- マッチング マッチング ステージ: 最初の推奨ステージでは、非常に大規模なアイテム プールから数百の候補アイテムがマッチングされます。この段階はデータ規模が大きいのが特徴で、オンライン サービスの遅延のため、モデルは通常比較的単純です。さらに、実際の業界のレコメンダー システムには通常、情報のさまざまな側面を個別に考慮するための複数のマッチング チャネルが含まれています。
- ランキングの並べ替えステージ: 2 番目の推奨ステージでは、さまざまなチャネルからの複数の一致結果をリストに統合し、並べ替えて、上位にランク付けされたアイテムを選択します。この段階では入力スケールが小さいため、システムは精度を高めるために複雑なアルゴリズムを使用し、複数の特徴を考慮することができます。同時に、複数の機能をどのように操作するかがこの段階の重要な課題となっています。
- 再ランキング 再ランキング段階: 前段階の最適化目標は主にレコメンデーションの精度ですが、レコメンデーション システムは精度に加えて、鮮度、多様性、公平性などの問題も考慮する必要があります。この段階では、異なる項目間の複数の関係を考慮し、削除や順序の変更などの操作を実行する必要があります。
さまざまな推奨シナリオに応じて
- 社会的推奨
ユーザーとアイテムのインタラクションに加えて、ユーザーの社会的関係もレコメンド効果を高めるために利用されます。
主な課題: 社会的要因をどのように捉えるか、社会的情報と相互作用行動をどのように組み合わせるか
最近の開発:
- 順序の推奨
ユーザーの過去のインタラクション シーケンスを使用して、ユーザーの関心を抽出し、次のアイテムを予測します。
主な課題: 配列からできるだけ多くの有効な情報を抽出する方法
最近の開発:
- セッションの推奨事項
ユーザー プロファイルや長期にわたる履歴インタラクションは利用できず、匿名ユーザーからの短期間のセッション データのみが推奨事項に使用されます。
主な課題: セッション データ内の項目の変化パターンをモデル化する方法と、ノイズの多いデータからユーザーの核となるニーズを抽出する方法
最近の開発:
- バンドルの推奨
個別のアイテムではなくバンドル (アイテムのセット) をユーザーに推奨します
主な課題: バンドルに関するユーザーの決定は、アイテムの所属を考慮する必要があること、ユーザーとバンドル間の対話がより希薄であること、高次の関連性のモデル化であること
最近の開発:
- クロスドメインの推奨事項
複数のドメインでのユーザーの履歴対話を使用して、コールド スタートとデータ スパースの問題を軽減します。
主な課題: さまざまなドメインの情報をどのように統合して活用するか
最近の開発:
- マルチアクションの推奨事項
複数の動作における対話を使用して、データの希薄性の問題を軽減するための推奨事項を作成します。
主な課題は、複数の動作とターゲット動作の間の関係をモデル化する方法、および動作を通じてアイテムの意味情報をモデル化する方法です。
最近の開発:
さまざまな推奨目標に応じて
- 多様性
冗長性を減らすために、ユーザーにさまざまなタイプのアイテムを推奨します。
主な課題: 劣った被験者の信号を強化する方法、および多様性と精度の間でトレードオフを行う方法。
最近の開発:
- 解釈可能性
このアイテムがこのユーザーに推奨される理由を説明する
主な課題: きめ細かい解釈を行う方法
最近の開発:
- 公平性
さまざまなユーザーに対するレコメンデーション結果の偏りを排除します。
主な課題: 推薦における差別と社会的偏見をどのように軽減するか
最近の開発:
今後の方向性
- GNN が深いほど、CNN 深化のパフォーマンスが向上します。GNN 深化は高次の関連性を捉えることができますが、平滑化しすぎるなどの問題があります。同時に、GNN 深化のプロセスでは、許容可能な計算量が必要です。
- 動的なGNNレコメンデーションでは、アプリケーションシナリオの多くのグラフが常に動的に変化するため、レコメンデーションシステムをいかに時間変化に適応させるかが実用上重要な意味を持ちます。
- ナレッジ マップによって強化された GNN 推奨事項は、ナレッジ マップを使用してより多くの外部知識を導入し、推奨事項の品質を向上させ、多様性と公平性のより多くの指標も考慮します。
- 大規模産業システムにおける効率とスケーラビリティ、効率と大容量データ。
- 自己教師あり GNN。自己教師を使用してデータの疎性の問題を軽減します。
- 会話による推奨。チャット中に推奨を行います。
- アダプティブ GNN レコメンデーションには、Auto ML と他のテクノロジーを組み合わせて一般的な GNN レコメンデーション システムを作成する方法など、レコメンデーションには多くのシナリオがあります。