[知識ポイント]コンテンツ認識レコメンデーションシステムのコンテンツ認識推奨のためのゲート付き注意-オートエンコーダ(コンテンツ認識推奨のためのゲート注意-オートエンコーダ)

原文:Chen Ma、Peng Kang、Bin Wu、 Qinglong Wang、XueLiu 2019. Gated Attentive-Content-AwareRecommendation用のオートエンコーダー。Web検索とデータマイニングに関する第12回ACM国際会議(WSDM '19)、2019年2月11〜15日、オーストラリア、ビクトリア州メルボルン。ACM、ニューヨーク、ニューヨーク、米国、9ページ。https://doi.org/10.1145/3289600.3290977

概要

        ユーザーと製品の数が大幅に増加しているため、パーソナライズされたレコメンデーションシステムにはいくつかの困難な問題があります。

   1.スパース暗黙的フィードバックを使用することは困難です(スパース暗黙的フィードバックを利用することの難しさ)

   2.異種データの組み合わせの難しさ(異種データの組み合わせの難しさ)

        これらの課題に対処するために、著者はGated Attentive-Autoencoder(GATE)モデルを提案します。このモデルは、ニューラルゲーティング構造を使用して、製品のコンテンツとバイナリ(好き嫌いなど)のスコアの非表示表現を学習します。このモデルは、商品間の近接関係を使用して、ユーザーの好みを推測します。単語レベルおよび隣接レベルの注意モジュールはオートエンコーダーと統合されています。単語注意モジュールは、製品の単語シーケンス(説明)から製品の隠された表現を学習し、大量の単語に大きな重みを割り当てます。情報。近隣注意モジュールは、近隣の加重考慮によって商品近隣の隠された表現を学習します。

        この論文の主な貢献は次のとおりです。

1.製品の単語シーケンスから隠された表現を学習するために、単語注意モジュールを使用して、情報を含む単語を適応的に区別し、製品の内容をよりよく理解します。モジュールは、より少ないパラメータ。複雑な再帰的または畳み込みニューラルネットワークの効果。

2.製品の内容とスコアの隠された表現を効果的に統合するために、神経ゲーティング層が提案され、それらの重要な部分を抽出して結合します。

3.製品と製品の関係に従って、近隣注意モジュールを使用して製品近隣の隠された表現を学習し、製品近隣のユーザー設定のモデリングは、のユーザー設定を推測するための重要な補足を提供します。製品。

4.提案された2つの注意モジュールは、それぞれ重要な単語と隣接する製品を説明および視覚化できます。

問題の説明

        このホワイトペーパーで検討するレコメンデーションシステムタスクは、トレーニングおよびテストデータとして暗黙のフィードバックを使用します。ユーザーの好みは、m * nのバイナリ行列Rで構成されます。ここで、mはユーザーの数を表し、nは製品の数を表します。n個の製品の完全なセットはファイルリストで表され、の各ファイルは単語のシーケンスとして表されます。商品の隣接関係はサイズn * nのバイナリ隣接行列Nで表されます。これは、i番目の商品がj番目の商品に関連していること意味します。が与えられると問題のNRの部分は、Rの残りの部分を予測することですその後、大文字の太字を使用して行列を示し、小文字の太字を使用して列ベクトルを示し、細い太字を使用してスカラーを示します。

方法

        モデルのアーキテクチャは上の図に示されています。黄色の部分はスコア予測に使用されるスタックオートエンコーダー(以下AEと呼びます)、緑の部分は製品コンテンツに使用される単語アテンションモジュール、青はゲーティングレイヤー、融合に使用隠された手段、ピンクは隣接するアテンションですモジュール。Word_Attは単語注意層、Neighbor_Attは近隣注意層、Agg_Layerは集約層です。⊙は人民元の掛け算、⊕は人民元の足し算です。

  • モデルベース

        ユーザーと製品の数が増えると、処理の相互作用が複雑になり、モデル化が困難になります。特定の製品に対するユーザーの好みを把握するために、スタックAEを使用して、のすべてのユーザーのスコアベクトル(1 * mサイズ)エンコードします。 i番目の製品の場合、上付き文字rは、非表示の表現が製品の評価から学習されることを示します。エンコードとデコードのルールは次のとおりです。

        W1はh1 * mサイズ、W2はh * h1サイズ、W3はh1 * hのサイズW4はm * h1のサイズの重み行列、h1は最初の隠れ層の次元です。 hはボトルネックレイヤーです。寸法。riはマルチホットベクトル(ベクトルには複数の1が含まれます)です。rui= 1は、ユーザーuが製品iを気に入っていることを意味します。

  • 単語注意モジュール

        前作と比較して、単語の袋から学び、異なる単語の異なる重要性を無視して、このモジュールを提案します。このモジュールの重みは、異なる重要性の単語を適応的に選択します。製品の説明。

1.埋め込みレイヤー

        製品iの入力は、そのコンテンツの説明からのli単語であり、各単語はワンホット(1つだけが1)列ベクトルで表されます。このレイヤーでは、ワンホットエンコーディングベクトルは、サイズh * vの単語埋め込み行列Eを介して低次元の密なベクトル表現に変換されます。ここで、hは単語埋め込みの次元、vは語彙のサイズです。このレイヤーを介して変換した後、製品の内容は次のように表されます。

        Diはh * liのサイズ行列であり、ejはh-long列ベクトルです。 

2.多次元の注意

        機械翻訳の注意メカニズムのみに依存するTransformerに触発され、多次元の注意メカニズムを単語シーケンスに適用して、複雑な再帰的または畳み込みニューラルネットワークを使用せずに製品の隠された表現を学習します。その理由は、現実の世界では、ユーザーは、単語シーケンス内の単語間の関係よりも、製品のテーマまたはテーマを表現するためにいくつかの単語を使用する可能性についてより懸念している可能性があるためです。

        単語の注意の目的は、さまざまな単語にさまざまな重要性を与え、単語の埋め込みを加重して集約して単語を特徴付けることです。製品Diの埋め込みという単語を考えると、2層ニューラルネットワークを介して注意の重みを計算する通常の(バニラ)注意メカニズムが表されます。

h-long列ベクトルのwa1、h * h行列の        Wa2、h-long列ベクトルのBA2は学習するパラメーターであり、sofrmax()関数は重みが1であることを保証します。次に、aiを右に再度一致させます。提供ディを埋め込み、製品のベクトル表現を得るために加算されるの言葉で(上付き文字Cは、生成物の含有量から学んだ隠された表現を表します):

         ただし、埋め込みという単語に重要な値を割り当てると、通常、モデルは製品コンテンツの特定の側面に焦点を合わせます。特に単語数が多い場合は、商品内容の複数の側面から商品をまとめて説明します。したがって、製品コンテンツのさまざまな部分に焦点を合わせるには、複数のai必要です。aiの代わりにマトリックスを使用して、多次元の注意を取得し、各単語の埋め込みに注意の重みベクトルを割り当てます。重みベクトルの各次元は、Diのすべての埋め込み関係の側面を表すことに注意してください単語の埋め込みから注意のdaの側面を抽出したいとします。次に、waをサイズda * hの行列Wa1に展開します。これは、「重要な単語は何ですか」の高レベルの表現のように動作します。

        その中で、Aiはサイズda * liの注意重み行列、ba1は長さdaのバイアスベクトル、softmaxは入力に沿った2番目の次元です。注意重み行列に埋め込みという単語を掛けると、次の積が得られます。の行列表現:

        Zicはda * hサイズの商品マトリックス表現であり、次に別のニューラルレイヤーを使用して商品マトリックス表現をベクトル表現に集約します。商品の隠し表現形式を次のように改訂(改訂)します。

         wtはdaの長さの凝集層パラメーターであり、at()は活性化関数です。

  • 神経ゲート層

        製品のコンテンツと評価から製品の隠された表現を取得しました。次の目標は、これら2つの表現を組み合わせて、長短期記憶(LSTM)に触発された、評価されていない製品を予測することです。それらを適応的にマージします。ゲート付きGおよび融合商品の非表示は、ジグが次の式で計算されることを意味します。

        サイズがh * hの行列Wg1Wg2、および長さがhのベクトルbgは、ゲート層のパラメーターであり、2つの隠れた表現の顕著な部分を抽出してスムーズに組み合わせることができます。

  • 近隣注意モジュール

        論文の引用など、以前は固定された関係にある製品もありますが、これらの密接に関連する製品は、共通のテーマで近隣関係を形成することができます。ユーザーが製品の隣人に興味を持っている場合、それはこの製品にも興味を持っている可能性があります。商品の隣人の中で、特定の商品は代表的であり、近所を説明する上で重要な役割を果たします。商品iの近傍のセットを、行列Nから取得できると定義します商品iの近傍の隠された表現は、次のように計算されます。

        h * hのサイズの行列Wnは、近隣注意層によって学習されるパラメーターです。製品とその近隣に対するユーザーの好みを取得するために、次のように書き直すことができます。

加重損失

        二乗損失関数に信頼行列を挿入します。

         m * nサイズの信頼行列Cは次のとおりです。

        ハイパーパラメータρは固定されています。

ネットワークトレーニング

        モデルの目的関数は次のとおりです。 

        λは正則化パラメーターです。目的関数の最小化は、勾配降下法を逆伝播し、Adamの方法を使用して学習率を自動的に調整することで実現できます。 

おすすめ

転載: blog.csdn.net/qq_36614557/article/details/105117397