電子商取引プラットフォームにおける論文読書会ベースの不正検知ネットワーク

目次

まとめ

1 はじめに

2 背景と関連研究

2.1 予選

2.2 関連作品

3モデル

3.1 構造的特徴の初期化

3.2 詐欺師コミュニティの検出

 3.3 トレーニングの目的

4 実験

4.1 実験のセットアップ

4.2 「ライドアイテムのコートテール」攻撃検知の予測精度評価

4.3 STARS攻撃検知性能

B法分析

B.1 クエリ時間の比較

 B.2 徹底した有効性分析


论文链接: 電子商取引プラットフォーム上のグループベースの不正検出ネットワーク | 知識発見とデータマイニングに関する第 29 回 ACM SIGKDD 会議の議事録

まとめ

        電子商取引プラットフォーム技術とビジネス革新の急速な発展に伴い、ますます多くの不正行為がこれらのプラットフォームに多大な損害をもたらしています。詐欺の多くは、組織化された詐欺集団によって効率性の向上とコスト削減を目的として行われており、集団詐欺とも呼ばれます。集団詐欺は隠蔽性が高く破壊的ですが、電子商取引プラットフォームのトランザクション ネットワークの情報を集団詐欺の検出に完全に活用できる既存の研究はありません。

        この研究では、クラウドベースの詐欺の特徴を分析および要約し、これに基づいて、アプリケーションにおける現実世界の不正検出をサポートする、新しいエンドツーエンドの半監視型クラウドベースの不正検出ネットワーク (GFDN) を提案します。 。

タオバオの大規模電子商取引データセットとビットコイン取引データセットに関する実験結果は、双方向グラフに基づく私たちの提案する集団詐欺検出モデルが優れた効果と効率性を持っていることを示しています。

1 はじめに

        電子商取引の人気が高まるにつれ、電子商取引プラットフォームは詐欺攻撃、特にグループベースの詐欺に対してますます脆弱になっています。これらの詐欺攻撃は通常、電子商取引プラットフォーム上で詐欺師のグループ (群衆) によって実行され、偽のリンクを作成することで効率と有効性を向上させるという目的を達成します。不正な攻撃はプラットフォームの評判に影響を与えるだけでなく、ユーザー エクスペリエンスにも影響を与え、プラットフォーム ユーザーの喪失につながることもあります。

電子ネットワーク上でよくある詐欺

        淘宝網プラットフォームでの一般的な詐欺手法は「ヒッチハイク」攻撃 [51] で、これは詐欺グループを利用して偽クリックを作成し、人気商品と低品質商品の間に欺瞞的な関連付けを確立し、それによって他の顧客に低品質商品を推奨します。図 1 は、「プロジェクトライディング」攻撃の例を示しています。詐欺師 (u5 ~ u7 で示されます) は、製品 v4 の販売を促進するために、人気のある製品 (v1 ~ v3 で示されます) を意図的にクリックし、同時に低品質の製品 (v4 で示されます) をターゲットにします。

        したがって、図 1 では、赤いエッジ (実線) が不正なクリックであると考えられます。もう 1 つの不正な攻撃方法は、Sockpuppet をベースとしたレビュー システムに対する標的型攻撃 (STARS) [57] 攻撃です。同様に、プラットフォームのレビュー システムに対する STARS 攻撃は、ターゲット製品の誤った評価を開始する詐欺集団によって実行されることが多く、それによってターゲット製品の評価を変更 (通常は増加) し、他の正当なユーザーに製品を不正に宣伝します。また、詐欺師は正規のユーザーの動作を模倣するために通常の製品を評価するため、STARS 攻撃の検出がより困難になります。

不正検知に関する研究活動

        不正行為検出に関する研究 [33、37、47、51、85] では、通常、電子商取引プラットフォームにおける顧客と製品 (クリック、購入、レビューなど) の関係をアトリビューションの二部グラフとしてモデル化します。アトリビューション二部グラフでは、グループベースの不正行為の次の特徴が観察されます: (1)不正行為者とターゲットを含むサブグラフは、通常、非常に凝集性が高い; (2) 不正行為者は、詐欺を行うためにコミュニティを組織することがよくあります (3) グラフ内の属性 (購入数など)、詐欺リンクと詐欺師のグラウンドトゥルース ラベルは、詐欺の検出に非常に役立ちます。これらの特性に基づいて、いくつかのグループベースの不正検出方法が提案されています[33、37、38、47、51、79、85]が、これらの特性すべてを完全に活用できる方法はありません。

        たとえば、データベース文献では、ソリューション [51] は通常、デュアル カーネルや (, )カーネル検出などの結合サブグラフ マイニング[14、35、48、56、61、69、77、90] に基づいています。ただし、これらのメソッドは属性とラベルの情報を利用できず、一部のメソッドには NP 完全性の問題もあります。\アルファ\ベータ

        属性およびラベル情報を利用したいくつかの不正検出方法が、機械学習およびデータマイニングの文献で提案されています [33、37、47、79、85]。ただし、ラベル情報 [33、38、47、79] への依存度が高く、手動パラメータ設定の要件 [32、85] により、部分的なラベル情報のみを持つ実際のデータセットへのこれらの手法の適用可能性は制限されます。

        他の多くのアルゴリズム [10、46、53、57、64、73、74] は、反復学習、信念伝播、および頂点順序付け技術を利用し、グラフ トポロジ情報を保存して詐欺師を暴露しようと試みます。ただし、これらの方法のパフォーマンスは、グローバル トポロジと属性情報の利用が不十分であるため、一般に制限されます。

        上記の既存のアルゴリズムに加えて、コミュニティ検出方法 [23、26、65、67、68] も、ラベル情報を必要としない潜在的なソリューションです。残念ながら、既存の不正検出方法は一般にコミュニティ情報を無視しています。

論文手法: エンドツーエンドの半監視型グループベースの不正検出

        既存の方法の制限に触発されて、この論文では、属性二部グラフでのグループベースの不正検出のための、エンドツーエンドの半教師ありモデルのグループベースの不正検出ネットワーク、つまり GFDN を提案します。

        具体的には、私たちのモデルは、構造的特徴生成モジュールとコミュニティを認識した不正検出ネットワークという2 つの主要な部分で構成されています。

                GFDN は、慎重に設計された特徴生成モジュールを通じて、データベース テクノロジを通じて 2 部グラフの構造情報と属性情報を適応的に利用します。

属性と高次構造情報に基づいてグループ詐欺行為を捕捉するために、新しい                コミュニティ認識の二部ディープクラスタリングネットワークが私たちのモデルで提案されています。

· このネットワークでは、コミュニティ検出部分が潜在的な詐欺師コミュニティを発見し、モデルによる不正検出を支援できます。

        不正検出は、不正の種類に応じてエッジまたは頂点の分類問題としてモデル化できます。私たちは、不正行為と詐欺師の検出という共通の目標を持って GFDN をトレーニングするマルチタスク学習メカニズムを設計し、それによってグループベースの不正行為検出機能を向上させます。

論文寄稿:

        さらに、慎重に設計されたフレームワークとトレーニング目標により、部分的に利用可能な不均衡なラベルを使用して GFDN をトレーニングすることもできます。

         - 提案された GFDN は、データベースと機械学習文献からの技術に基づいて、属性付き双方向グラフ内の凝集したサブグラフ分布情報、構造情報、属性情報、およびコミュニティ情報を適応的に利用する新しいエンドツーエンド モデルです。詐欺検知。

        実際のデータセットに対する「プロジェクトライディング」攻撃と STARS 攻撃の不正検出について、広範な実験が行われています。実験結果は、GFDN のパフォーマンスが既存のグループベースの不正検出方法と比較して大幅に向上していることを示しています (前のタスクの F1 スコアと比較して、それぞれ少なくとも 13.83% と 3.09% の向上)。また、GFDN の各コンポーネントの有効性を評価するための詳細な分析も実施しました。

2 背景と関連研究

        このセクションでは、重要な定義と私たちの研究の問題点を示します。続いて関連作品を紹介します。

2.1 予選

        私たちは電子商取引プラットフォーム上でグループベースの不正行為を検出することを目指しており、この論文では所属する二部グラフとしてモデル化されています。所属バイナリグラフの定義は次のとおりです

        定義 2.1 (2 部グラフに属する)所属する 2 部グラフは で表されです。E は特定の種類のグラフ (評価システム グラフなど) で重み付けできます。X_U また、X_V は頂点セット U および V の属性特徴行列です。

        多くの不正検出方法では、双方向グラフの( \アルファ\ベータ) カーネルが非常に重要であり、次のように定義されます。

        定義 2.2 (( \アルファ, \ベータ)-core).バイナリ グラフ G と整数 , ∈ Z+ が与えられると\アルファ\ベータ G の\アルファ( ,\ベータ )-coreは G' として示され、2 つの頂点セット U' ⊆ U および V' で構成されます。 ⊆V合成。(\アルファ ,\ベータ )カーネル G' は、G から U'∪V' によって誘導される最大の双方向部分グラフです。ここで、U' のすべての頂点は少なくとも次数を持ち\アルファ、V' のすべての頂点は少なくとも次数を持ちます\ベータ

\アルファ( ,\ベータ )-core G' の対応する属性特徴行列は、 X_u'それぞれと ' で表されること        に注意してください。X_v'

        問題文。この論文は、関連する二部グラフ上でグループベースの不正行為を検出するためのエンドツーエンドの学習ベースのモデルを設計することを目的としています。具体的には、不正攻撃の​​種類に応じて、私たちの目標は、電子商取引プラットフォームで不正なクリックや不正なユーザーを見つけることです。つまり、詐欺師のグループによって作成された偽のリンク E_{アット} ⊂ E を検出するか、アトリビューションの二部グラフU_{att} ⊂(ユーザー)U.

        曖昧さがないように、表現を容易にするために、この記事では、アトリビューションの二部構成図を説明するために、顧客と製品の図を例として取り上げます。「プロジェクトライディング」攻撃とSTARS攻撃の不正検出は、それぞれエッジ分類問題と頂点分類問題としてモデル化できることは注目に値します。

2.2 関連作品

        このセクションでは、クラウドベースの不正検出に密接に関連する作業を紹介します。具体的には、分類アルゴリズム、凝集サブグラフ マイニング技術、および不正検出方法に関する研究を紹介します。

        分類アルゴリズム。グループベースの不正検出は、エッジまたは頂点の分類問題としてモデル化できます。いくつかの研究では、平衡理論 [21、34] と行列因数分解 [9、21] を適用してバイナリ グラフのエッジ ラベルを予測していますが、不均衡なラベル頂点を処理するのが困難です。ナレッジ グラフ [49] と推奨システム [30、54] は、エッジ ラベルの予測問題を解決できます。他の方法には、片面グラフ [60] または両面グラフ [17、18、29、89] のエッジ符号予測のためのグラフ ニューラル ネットワーク [27、42、72、88] およびグラフ埋め込み [25、66] が含まれます。ただし、コミュニティ情報を活用することはできません既存の頂点分類方法 [19、43、50、62、86] は主に頂点の特徴と共有された近傍情報を分析することによって問題を解決しますが、詐欺師の行動を特定することはできず、スマート詐欺の検出におけるパフォーマンスは限られています

        凝集サブグラフマイニング。\アルファbiclusters [11, 90]、k-bitruss [76]、bitriangles [83]、(, )-core [56]、-quasi-biclusters [ 58\ベータ  ]\ベータ、k-double [84]などの 2 部グラフ上の結合部分グラフを検索します。』などがコミュニティ検出に広く使われています。ただし、これらのアルゴリズムで属性とラベルの情報を使用するのは困難です。さらに、学習ベースのコミュニティ マイニング モデルもいくつかあります [15、41、70]。ただし、これらのモデルを単純に不正行為の検出に適用することはできません。

        不正行為の検出。私たちの知る限り、RICD [51] は現在最先端の「ライドオンプロジェクト」攻撃手法です。RICD は、近似ビスラッシュ アプローチを使用して詐欺師のグループを特定し、詐欺を検出します。ただし、RICD は属性情報を完全に無視するため、手動で調整する必要がありますSTARS 攻撃の検出には、RTV [57] が最先端の方法です。この方法は、格付け情報を最大限に活用することで、効果的に不正行為者を検出することができます。ただし、この手法の教師ありバリアントである RTV-SUP は、ラベル情報をうまく利用できませんが、教師なし学習の結果を特徴として直接使用し、単純な教師あり学習手法 (ロジスティック回帰やランダム フォレストなど) を実行して不正行為を検出します。 .によって。クリック ファーミングは、詐欺師のグループをターゲットにして大量の偽のトラフィックを生成することを目的とした、別のタイプのクラウドベースの詐欺です。クリック ファーミングを検出するために、多くのアルゴリズム [24、36、37、52、85、91] が提案されています。ただし、これらのアルゴリズムは主に特徴エンジニアリングに焦点を当てており、グラフ内の豊富な構造情報を無視しています。

3モデル

        このセクションでは、モデル GFDN の詳細を紹介します。GFDN のフレームワークを図 2 に示します。GFDN はエンドツーエンド方式で開発されます。まず ( \アルファ,\ベータ  ) コア分布を利用して構造的特徴を初期化します私たちは、グループベースの詐欺の特徴を捕捉するために、コミュニティを意識した新しいデュアルカーネルディープクラスタリングネットワーク(BDCN) を提案します。さらに、マルチタスク学習メカニズムは、より優れたグループベースの不正検出機能と汎用性を得るために、不正行為と詐欺師の検出という共通の目標を持って GFDN をトレーニングするように設計されています。

3.1 構造的特徴の初期化

        初期特徴量には、固有の属性情報と属性二部グラフの構造情報が含まれます。このセクションでは、構造的特徴がどのように初期化されるかを説明します。

異なるスパース性を持つ部分グラフを取得する

        私たちの実験や [51] で観察されたように、詐欺師の行動はその程度と密接に関係しています。直感的には、詐欺師は偽のリンク (クリックまたはコメント) を作成するため、比較的高度な詐欺行為を行っていると考えられますこの研究では、構造情報を取得するために ( \アルファ,\ベータ   ) コア分布を選択します。セクション 2.1 で定義されているように、1 つの頂点セット (顧客の頂点セットなど) の最小次数を制約し、別の頂点セット (製品の頂点セットなど) の最小次数を制約します\ベータと の値を変更することにより\アルファ、( \アルファ\ベータ )-コアは異なるスパース性を持つ部分グラフを効果的に取得できます。これらのサブグラフを使用して、グラフ全体の表現力豊かな構造的特徴を生成できます。

デザインの程度

        集団詐欺の特性により、たとえば、顧客と製品のグラフでは、詐欺師とターゲット製品の両方の度合いが比較的高くなります。\アルファ合計値が増加するにつれて\ベータ、 ( \アルファ\ベータ ) カーネルに保持される頂点の数は減ります。\アルファ _\タウ ^+したがって、比較的次数の高い頂点に注目するために、「 」と「 」の上限閾値を設定します\beta _\number ^+。同時に、\アルファとの値が比較的低い場合、(  )-core\ベータのサイズは大きくなります。合計に応じて変化し、大きな変化が発生しました。\アルファ\ベータ\アルファ\ベータ

したがって、各頂点の構造的特徴の区別を維持することにさらに注意を払う\アルファ _\タウ ^-ために        、より低いしきい値合計を設定します。\beta _\年 ^-( \アルファ\ベータ ) コアは区別されており、顧客のアクティブ度や製品の人気度を明らかにすることができ、グループベースの不正行為の検出に役立ちます。したがって、すべての ( ,\alpha _\tau ^- \leq \alpha \leq \alpha _\tau ^+ ) カーネルを sumで クエリします\beta _\year ^- \leq \beta \leq \beta _\year ^+\アルファ\ベータ

        頂点ごとに、クエリされた ( ) コア  の数に等しい次元の構造x_s \in \{0,1\}^{d_0}特徴が生成されます\アルファ\ベータ

x_sの各ブール項は、頂点が対応する ( \アルファ\ベータ ) コアに属するかどうかを表します。

最後に、二部グラフに属する2 つの頂点セットの構造的特徴と が        取得されます。ここで、|U| と |V| はそれぞれ 2 つの頂点セットの頂点の数です。

        得られた構造特徴に対して、学習可能な重みを使用して、 ( ) コア分布の重要性を自律的に調整します\アルファ\ベータ具体的には、重みの合計を使用して  と  を 生成します

        このうち、⊙はアダマール(要素ごとの)積を表し、I_u = 1^{|u|*1}すべてI_v = 1^{|v|*1}の要素が 1 に等しい行列で、次元はそれぞれ |U| ×1 および |V| ×1 です。

3.2 詐欺師コミュニティの検出

        詐欺攻撃を実行するには、詐欺師は比較的短い時間内に大量の偽のリンク (クリックまたはコメント) を作成する必要があります。コストを削減し効率を向上させるために、詐欺師は通常、コミュニティを組織したり、そのようなリンクを実行するために多数のアカウントを登録したりします。これらのコミュニティを特定することは、以前の研究では見落とされていたグループベースの不正行為の検出に大きく役立ちます[36、37]。ただし、コミュニティ情報は実際のデータでは入手できないことがよくあります。したがって、コミュニティ検出には教師なし手法が使用されます。

        SDCN [15] に触発されて、我々は、Bipartite Deep Clustering Network (BDCN) という名前の、コミュニティを意識した 2 部グラフ用のグラフ ニューラル ネットワークを提案します。SDCN の片側グラフ上のクラスタリング パフォーマンスは SOTA に達します。ただし、SDCN は 2 部グラフには完全には適用できず、利用可能なラベル情報を活用できません。さらに、通常、不正行為に関与する製品間には強い相関関係がないため、グラフ内の顧客のみをクラスター化する必要があります。これらの制限に触発されて、本研究では構造情報と属性情報に基づいてコミュニティを検出できる BDCN を提案します。

オートエンコーダーとグラフ ニューラル ネットワーク

        BDCN には、オートエンコーダーとグラフ ニューラル ネットワーク (GNN) という 2 つの主要コンポーネントがあります。オートエンコーダ [13] を通じて、BDCN は入力特徴からの情報を保持しながら、自己監視型の方法でトレーニングできます。

エンコーダ側

        オートエンコーダーは、重み付けされた構造フィーチャと顧客頂点の属性フィーチャの連結を 入力として使用します。エンコーダーは\ワイドチルダ{X}_u、各ニューラル層で次のように計算される入力を持つ多層パーセプトロン (MLP) としてモデル化されます。

         ここで\シグマ、 は活性化関数、W_e^{(l)}b_e^{(l)}エンコーダの l 番目の層の重み行列とバイアス、X_{(u,a)}^{(l)}はエンコーダの l 番目の層の出力、最後のエンコーダ層の出力はエンコードされたものとみなされます。顧客特徴行列X(u,e) = X_{(u,a)}^{(And)}(Le はエンコーダーのレイヤー数を表します)はエンコード特徴X(u,e)です。\ワイドチルダ{X}_u

デコーダ側

        同様に、デコーダも MLP としてモデル化されます。デコーダの中間処理は次のように表すことができます。

         W_d^{(l)}および はb_d^{(l)}、デコーダの i 番目の層の重み行列とバイアスです。最終的なデコード結果は、デコーダの最後の層の出力です。つまり、オートエンコーダは、下流の不正検出に価値のあるプロパティを含む頂点の表現力豊かな低次元表現を抽出することを目的としています。

        オートエンコーダの目標は、X(u,d)と \ワイドチルダ{X}_uの間の差異を最小限に抑えることです。平均二乗誤差 (MSE) [12] は、オートエンコーダーの自己教師あり損失関数として使用されます。

         得られたエンコード表現を通じてX(u,e)、顧客頂点のコミュニティ情報を取得したいと考えています。

K 平均法クラスタリング

        これは、K 平均法 [28]、平均シフト [20] などの特定のクラスタリング アルゴリズムに入力され、U 内のクラスターを検出します。エンコード表現にはX(u,e)構造情報と属性情報の両方が含まれるため、クラスタリングは両方のタイプの情報に基づいて行われます。クラスター中心ベクトル (つまり、各クラスターの中心頂点の表現) を と表しますC_K。ここで、K はクラスターの数です。K はクラスター中心のエンコードされた表現で構成されており、トレーニング可能であることに注意してください私たちのモデルのパフォーマンスはクラスタリング アルゴリズムの選択に左右されず、この作業ではクラスタリングに K 平均法が選択されています。i 番目の顧客頂点と j 番目のクラスターについては、スチューデントの t 分布 [71] がカーネルとして選択され、表現とクラスター中心ベクトルの間の類似性が測定されます次の式で計算できます。

ここで\オメガ、 はスチューデント t 分布の自由度、x_{うえ、私}は i 番目の顧客の頂点表現X(u,e)、 c_j \in C_Kq_{ij}i 番目の顧客と j 番目のクラスター中心間の類似性を表します。 - 番目の顧客から j 番目のクラスター センターへの j クラスターの確率。これらの類似性の行列として定義します。私たちの目標は、クライアント頂点をクラスターの中心に近づけること、つまり、クラスターの割り当てを高い信頼性で実行して、クラスターの凝集性を向上させることです。

類似度の計算

        これを行うには、次の方程式を使用してターゲットの類似性分布を計算します。

正規化された行列を Q として 定義します 。二乗ペアを使用して、類似したインスタンス間の類似性を拡大し、異なるインスタンス間の類似性を減少させますP と Q の差を最小限に抑えるために損失関数として Kullback-Leibler (KL) ダイバージェンス [45] を使用します。

         最小化によりL_c 、顧客の表現がクラスターに対してより区別しやすくなります。したがって、最適化を通じてL_{はい} 、L_c エンコーダーの出力はX(u,e)クライアント頂点のコミュニティ表現とみなされ、オートエンコーダーはクライアント頂点の高品質なコミュニティ表現を生成できます。

アトリビューションの二部グラフで豊富な情報を取得する

        ただし、MLP のみを使用すると、オートエンコーダーは初期特徴からのみ取得した構造と属性を保持しますが、バイリンク グラフ内の隣接関係は失われます。また、タスクではプロダクト頂点の情報は無視されます。したがって、BDCN にグラフ ニューラル ネットワーク (GNN) とオートエンコーダーを採用して、属性付きの 2 部グラフの豊富な情報をさらにキャプチャします。

        GNN は、情報をグラフに保存する強力な機能により、さまざまなアプリケーションで使用されてきました。既存のグラフ ニューラル ネットワークは通常、次の集約および結合スキームを採用しています。

         ここでX_u^{(l)}、 はグラフ ニューラル ネットワークの l 番目の層の頂点の表現、N(u)は頂点 u の近傍のセット、AGG は集約操作であり、近傍の表現を集約することによって頂点の表現を繰り返し更新します。 COM は組み合わせ演算であり、頂点の表現を更新するための以前のレイヤー自身の表現からの合計を表しますX_u^{(l-1)}

        ただし、GCN [42]、GAT [72]、GraphSAGE [27] などの一般的な GNN は、特に二部グラフ専用ではなく単部グラフ用に設計されているため、このタスクに直接使用することはできません。さらに、異なる頂点セット内の頂点の初期特徴、つまり顧客と製品には、異なる属性が含まれ、異なる次元を持ちますが、これは一般的なグラフ ニューラル ネットワーク アーキテクチャでは考慮されません。

設計されたユーザー情報集約

        これらの問題に対処するために、属性と構造情報を保持しながら属性二部グラフでの集計を可能にする新しい GNN ベースのモデルを設計します。プロダクト頂点の入力フィーチャは次のとおりです。

         ここで \ワイドハット{X}_{(v,s)}、 はセクション 3.1 で導入された構造的特徴、X_vはプロダクトの属性特徴、W_v はの次元を の次元と 一致させて2 つの頂点セット間の集約を可能にするb_V マッピングに使用される重み行列とバイアスです。X_v\ワイドチルダ{X}_v\ワイドチルダ{X}_u

GNN集計情報

        各 GNN 隠れ層では、各エンコーダー層の顧客表現を、入力として前の GNN 隠れ層の顧客表現に重ね合わせます。

\ワイドチルダ{X}_uより具体的には、最初の GNN 層で、合計を \ワイドチルダ{X}_vGNN ネットワーク経由で        渡します 。

         ここでg^{(l)}(\cdot )、 は l 番目の層の GNN、は隣接行列、H^{(l)}は最初の GNN 層の出力です。対応するエンコーダ層の出力は顧客特徴に重ね合わされ、次の GNN 隠れ層に渡されます。

         ここで、⊕ は要素ごとの合計を表し、H^{(l)}sum H_v^{(l)}はそれぞれ l 番目の層の U と V の隠れた表現です。最後に、最後の隠れ層から取得した顧客の特徴がX(u,e)、顧客コミュニティ表現であるエンコーダーの出力に重ね合わされ、出力 GNN 層に供給されて、コミュニティ帰属の結果が取得されます。

         ここでL_g、 は GNN 層の数、むうは顧客頂点を選択するためのマスク、 はコミュニティ所属表現であり、各エントリは顧客が特定のコミュニティに属する確率です。顧客が同時に複数のコミュニティに存在することは一般的です。つまり、顧客は複数の顧客グループに対して同様の行動を取る可能性があります。したがって、出力層活性化関数としてシグモイドを選択します。

        GFDN のパフォーマンスは、GNN バックボーンの選択には影響されません。この論文では、大規模なグラフの効率を確保するために Graph-SAGE [27] のアーキテクチャを選択します。具体的には、各レイヤーは次のようにシンボル化できます。

 3.3 トレーニングの目的

        セクション 2.2 で紹介したように、母集団ベースの不正検出は、不正の種類に応じてエッジ分類または頂点分類問題としてモデル化できます。これら 2 つの不正タイプに対して GFDN を最適化するために、エッジと頂点の分類のためのマルチタスク トレーニング目標を設計します。

エッジの分類

        具体的には、「RideItem's Coattails」攻撃検出などの不正操作検出タスクの場合、属性の 2 部グラフでエッジ分類を実行することが目的です。すべての不正行為は詐欺師によって実行されるため、詐欺師検出モデル (頂点など) がトレーニングされます。分類)により、メインタスクのパフォーマンスを向上させることができます。なお、すべての不正リンクは詐欺師からのものであるが、詐欺師が作成したすべてのリンクが不正リンクであるわけではないため、頂点分類結果を簡単に不正操作の検出に利用することはできない。

頂点の分類

        一方、STARS 攻撃検出などの詐欺師検出タスクの場合、GFDN の主な目的は頂点分類、つまり顧客を詐欺グループと正当なグループに分けることです。この場合、不正なリンクは詐欺師によってのみ作成されるため、エッジ分類は最適化を向上させるための補助的なタスクと見なされます

        したがって、この研究では、エッジ分類 (不正検出) と頂点分類 (不正行為者検出) のためのマルチタスク学習と共同ト​​レーニング目標を活用します。

頂点を分類する方法

        まず頂点分類を行う方法を紹介します。構造と属性情報に従って、顧客のコミュニティ所属表現は式 12 を通じて取得されますC_uC_u 次に、詐欺師は次のように2 層 MLP エクスプロイトによって予測されます。

         顧客が正規ユーザーまたは詐欺師である予測確率を示します。\デルタこれは Softmax 関数です。頂点 u の予測確率が\ワイドハット{y}_u しきい値 よりも高い場合\年_u 、それは詐欺師とみなされます。

エッジを分類する方法

        同様に、エッジ分類を実行する方法を紹介します。顧客と製品を接続するエッジの表現は次のように構成されます。

         は式 14 で計算された予測詐欺師確率、は u のコミュニティ帰属表現、は顧客と製品の構造的特性、は U と V の属性特性です。

        具体的には、STARS 攻撃などの詐欺師検出タスクの場合、詐欺師エッジは詐欺師によってのみ作成され、予測される詐欺師の確率は詐欺師\ワイドハット{y}_uエッジの予測と高度に相関しており、補助エッジ分類タスクの最適化の有効性が低下します。したがって、これらのタスクでは接続は作成されx_{e,uv}\ワイドハット{y}_u 、残りの表現は変更されません。式 15 の接続を通じて、エッジ特徴行列を取得します。X_E  同様に、完全に接続された 2 つの層も使用し、次に Softmax 関数を使用してエッジ分類結果を取得します。

        エッジが与えられた場合、予測された確率が\ワイドハット{y}_e しきい値よりも高い場合\年_e 、それは不正なエッジとみなされます。 

損失関数

        頂点分類とエッジ分類の結果の合計\ワイドハット{Y}_U 、および\ワイドハット{Y}_E 頂点Y_E とエッジY_U のグラウンド トゥルース ラベルを使用すると、これら 2 つのタスクの直接損失関数はクロスエントロピー損失になります。ただし、頂点とエッジのラベルは通常アンバランスであるため、たとえば、ほとんどの頂点とエッジのラベルは正当であるため、クロスエントロピーを直接利用するとパフォーマンスの低下につながります。トレーニング段階で不正行為者と不正エッジへの重点を高めるために、これら 2 つのタスクの損失関数として焦点損失 [55] を採用します。具体的には、頂点分類の損失関数は次のとおりです。

 

        このうち、y_u は本物のラベルを表し、^y_u は詐欺師であるかどうかの予測確率を表します。

        エッジ分類の損失関数は次のとおりです。

         GFDN のパラメーターは、次の統合損失関数を介してオプティマイザーで共同で最適化されます。

         したがって、私たちが提案する GFDN は、これらの重みパラメーターを調整することで、頂点またはエッジの分類に焦点を当てるようにトレーニングできます。

4 実験

        このセクションでは、まず実験のセットアップ、つまりデータセットとベースライン アルゴリズムの詳細を紹介します。GFDN の各コンポーネントの精度、効率、重要性を評価するために、最先端のベースライン、アブレーション研究、パラメーター感度分析との比較結果を報告します。具体的には、実験では、詐欺検出の 2 つの主要カテゴリ、つまり詐欺リンク検出と詐欺師検出の代表として、2 つのグループベースの不正検出タスク「RideItem's Coattails」と STARS 攻撃検出が選択されます。また、詳細な分析を実施して、構造特徴生成およびクラスタリング モジュールが GFDN のパフォーマンスにどのような影響を与えるかを実証します。

        私たちは GFDN の正確性の検証に重点を置いています。実装、ハードウェアの詳細、およびその他のセットアップの詳細は、付録 A にまとめられています。コードは [7] にあります。追加の実験と分析は付録 B にあります。F1 スコア、精度、AUC、適合率、再現率の 5 つの評価指標が使用されます。これらの指標の具体的な定義については、付録 A.4 を参照してください。

4.1 実験のセットアップ

        「ライドアイテムのコートテイル」攻撃検出用データセット

        私たちの目標は、群衆ベースの詐欺検出を実行して、「Ride item's Coattails」攻撃 [51] を検出することです。この攻撃では、詐欺師のグループが人気のある低品質のターゲット製品を悪用して、ターゲットの売上を増やすために偽のクリック (つまり、エッジ) を作成します。製品、実験中。これらの実験は、2 つの実際の顧客製品データ セット TC [4] および TB に対して実行されます。TC は、Tianchi の「Ride item's Coattails」攻撃予測コンテストで使用されるオープンソース データ セットです [5]。TB は、アリババの電子商取引プラットフォーム、タオバオ上の大規模な属性付きの 2 番目の部分の顧客製品グラフです。これら 2 つのデータセットの不正ラベルは、基本的に専門家のアノテーション、つまり専門家による手動のアノテーションを通じて取得されます。詳細については、付録 A.5 を参照してください。

(データセット TC および TB には、「Ride item's Coattails」攻撃のラベルが含まれています。これらのラベルは、次の方法で取得できます:エキスパート ラベル。タオバオ プラットフォームのビジネス エキスパートは、非常に正確なラベル情報を提供しますが、莫大な人件費ももたらします。密なサブグラフでのフィルタリング。データの集中度が低い頂点をクリーンアップします。次に、時間情報と属性情報を活用して、ビジネス エキスパートのラベル付けタスクをサポートします。この場合、ビジネス エキスパートが顧客が顧客であることを十分に確信していなくても、攻撃、これらのクリックに攻撃タグも追加します。レッドチーム攻撃シミュレーション。当社のルールに従い、実際の正確な攻撃データを取得するために攻撃を実行するためにタオバオプラットフォームで買い手と売り手を雇います。)

        付録 A.5 のエキスパート アノテーションは不正行為を非常に正確に検出できますが、多額の人件費が必要であること、アノテーションの効率が低いこと、多数のアノテーションを達成するのが難しいことなどの明らかな欠点もあります。特徴情報、密サブグラフ法における特徴フィルタリングはラベル付け効率を大幅に向上させることはできません; レッドチーム攻撃シミュレーション法は多大な費用とリソースを消費し、費用対効果が高くありません。したがって、GFDN は、淘宝網プラットフォームがより低コストでより多くの不正攻撃を検出するのに役立ちます。

        2 つのデータセットの具体的な統計を表 1 に示します。ここで、% Fraud と % Legit は、それぞれ、ラベル付けされた不正エッジと正当なエッジの割合を表します両方のデータセットの一部のエッジのみにラベルがあることに注意してください。頂点に 1 次のみでリンクされているエッジは、通常のエッジとしてマークされます。評価は導電性環境で実行され、すべての構造情報と特性情報はトレーニングおよびテスト中に利用できます。ラベル付きエッジのうち、層化サンプリングを適用して、テスト セット内のエッジの 10% とトレーニング セット内の残りのラベル付きエッジを選択します。

        STARS 攻撃検出用のデータセット

        STARS 攻撃も、属性の 2 部グラフに基づく典型的なグループベースの詐欺行為です。電子商取引システムの詐欺師は、大量の偽のアカウントを作成し、多数の誤った評価でターゲットを評価します。GFDN とベースライン手法のパフォーマンスをテストするために、 STARS 攻撃検出用のデータセットとして Bitcoin Alpha [46] と Bitcoin OTC [46] を使用し、RTV [57] で導入された前処理手法を使用します。

        2 つのデータセットは、ユーザー間信頼ネットワークの発信エッジ、各「製品」、および Alpha プラットフォームと OTC プラットフォームを使用して取引するビットコイン ユーザーのすべての受信エッジです。2 つのデータセットの具体的な統計を表 2 に示します。ここで、% 詐欺師と % 合法者は、元のデータセット内のすべての評価者のうち、既知の詐欺師と通常の評価者の割合をそれぞれ表します。

       RTV の研究を参照し、これら 2 つのデータセットに基づいて STARS をシミュレートしました。具体的には、RTV 研究で選択されたパラメータのうち、権利確定口座の割合を 30% に選択し、権利確定口座の割合を選択しました。偽評価数はそれぞれ10件、対象商品数は100件固定です。これらすべてのベストアカウントは詐欺師とみなされ、これらの詐欺師の初期の公平性と評価の信頼性はランダムに分布されます。これらの詐欺師はターゲット製品に最高の評価を与えますが、他の製品の評価は既存の評価の正規分布からランダムに取得されます。次に、RTV の利点を最大限に活用するために、信頼できる評価者と検証済み評価者も提供します。実験のデータセットが RTV 作業のデータセットとまったく同じであることを保証するために、100 人の信頼できる評価者を生成し、500 人の既存の評価者を検証評価者としてラベル付けしました。信頼できる評価者は最高レベルの公平性を備えており、その評価も既存の評価の正規分布を通じてランダムに取得されます。初期公平性のない評価者頂点の公平性値を 0.5 に、初期良好性のない製品頂点の良好性値を 0 に、初期良好性のない評価の信頼性値を 1 に設定します。属性特徴については、頂点タイプ、次数、および初期の公平性/良好性を頂点特徴として考慮し、評価を追加のエッジ特徴として考慮します。上記の前処理を完了した後、層別サンプリングを適用して、テスト セット内の頂点の 10% とトレーニング セット内の頂点の残りの 90% を選択します。RTV の詳細設定については、付録 A.1 を参照してください。

        比較方法

        私たちが提案したモデルのパフォーマンスを実証するために、GFDN を最先端のベースライン手法と比較します。一般に、ベースライン手法は、学習ベースの手法とパターンベースの手法という 2 つの主要なカテゴリに分類できます。

学習ベースのアプローチ

        学習ベースの方法では、機械学習技術を利用して不正行為を検出します。以下の最先端の方法を比較します。

        ラベル伝播アルゴリズム (LPA) [68]。LPA は、グラフにラベルを割り当てるための高速な半教師ありアルゴリズムです。

        符号付き Infomax 双曲線グラフ (SIHG) [60]。SIHG は、双曲線グラフ ニューラル ネットワークに基づくシンボリック リンク予測手法です。

        BiGI[18]。BiGI は、二部グラフ上の推奨とリンク予測のためのローカル-グローバル情報マトリックスに基づく新しい二部グラフ埋め込み方法です。

        署名付き二部グラフ ニューラル ネットワーク (SBGNN) [34]。SBGNN は、平衡理論に基づいた符号付き 2 部グラフの頂点の表現学習アルゴリズムです。

        天池[6]。このアルゴリズムは、Tianchi の「Ride item's Coattails」攻撃予測コンテストで最も優れたパフォーマンスを示しました。このアルゴリズムは、頂点の属性特徴を入力とする、MLP とバッチ正規化を使用した半教師ありモデルを使用して、不正なエッジを予測します。

パターンベースのアプローチ

        パターンベースの手法は、グラフ内の構造情報を利用して潜在的な不正行為を検出することを目的としています。グループベースの不正検出の特性により、つまり、不正エッジは通常、結合したサブグラフを形成し、結合したサブグラフ検出方法が不正検出に使用されます。この研究では、次のパターンベースのアプローチが比較されます。

        ( \アルファ、\ベータ )-コア\ベータsum が与えられると、\アルファ計算された ( )-core\アルファ、\ベータ内のエッジは不正であると見なされます。実験では、選択を最適化し、最良の結果を報告します\アルファ\ベータ

        RICD [51]。RICD (( \アルファ, k1, k2)-biclique) は、「Ride item's Coattails」攻撃を検出するために [51] で提案されました。[51] の設定に従って、このメソッドの RICD を\アルファ= 1 に設定します。使用されているコードは公開プロジェクトからのものです [2]。

        [51] の設定に従って、\アルファ、\ベータ ( )-core と RICD によって検出された結合サブグラフ内のすべてのエッジが不正なリンクとみなされることに注意してください。

その他の方法

        さらに、GFDN を、不正検出において最先端のパフォーマンスを実現する次の方法と比較します。

        詐欺師 [1、32]。FRAUDAR は、マスカレードに耐性のある方法で 2 部グラフの不正行為を検出することを目的としています。

        CF1[85]。CF1 は、最先端のクリック ファーミング検出アルゴリズムです。CF1 は LOF [16] を利用してデータをフィルタリングし、自己教師あり K 平均法を利用して予測を実行します。

        CF2[37]。CF2 は、ポイント アンド クリックによる農業検出用にも設計されています。このアルゴリズムは、ラベルの伝播を通じて頂点にラベルを付け、トレーニングと予測のために SVM とニューラル ネットワークを組み合わせます。

        RTV-SUP [57]。RTV は、最も先進的な STARS 攻撃検出アルゴリズムです。このアルゴリズムは、頂点と評価の信頼性を最大限に利用して、悪い行動をしているユーザーを見つけることができます。RTV-SUP は、RTV の教師ありバリアントです。

GFDN の次のバリアントが比較されました

        モデル内の各コンポーネントの有効性を評価するために、次の GFDN のバリアントも比較しました。

        子供っぽい。単純なアルゴリズムは、初期特徴のバリアントを入力として直接使用し、完全に接続された 2 つのニューラル層を不正検出に使用します。

        GFDN-S。GFDN と比較して、GFDN-S は不正検出を無視してモデルの構造特徴生成モジュールの有効性をテストします。

        GFDN-F. GFDN と比較して、X_U 属性X_V 機能の重要性をテストするための不正検出には関与しません。

        GFDN-L: GFDN と比較して、このバリアントはエッジ表現X_E を削除して\ワイドハット{Y}_U、マルチタスク学習 (特に頂点分類) の有効性をテストします。

        GFDN-C。 GFDN と比較すると、コミュニティ情報の有効性をテストするために、コミュニティ所属表現がC_U エッジ表現に含まれていません。X_E

        SIHG、BiGI、SBGNN のパラメータ設定は元の論文と同じにします。さらに、3 つのベースライン セットはいずれもラベルなしデータを処理できないため (つまり、半教師あり学習をサポート)、トレーニング セットとテスト セットではラベル付きエッジのみが使用されます。

        パターンベースのアプローチでは、パラメーターを調整し、その最適なパフォーマンスを報告します。また、Naive モデルのハイパーパラメーター、GFDN-S、GFDN-F、GFDN-L、および GFDN-C は、収束を確実にするためのエポック数を除いて GFDN と同じに保ちます。

4.2 「ライドアイテムのコートテール」攻撃検知の予測精度評価

        このセクションでは、比較した「ライドアイテムのコートテイル」攻撃検出方法のパフォーマンスについて報告します。表 3 に、すべてのモデルの実験結果を示します。全体として、私たちが提案する GFDN は、両方のデータセットで比較された他のすべての方法よりも優れています。具体的には、2 番目にパフォーマンスの良いベースラインと比較して、GFDN は F1 スコア指標を TB と TC でそれぞれ 17.83% と 13.83% 改善しました。

         学習ベースの方法との比較LPA は属性情報を完全に無視するため、パフォーマンスが最も悪くなります。BiGI と SBGNN は属性二部グラフの構造情報を考慮しますが、BiGI は集計プロセス中に製品の属性情報を無視し、SBGNN はラベルとグラフの疎性を処理できないため、パフォーマンスが非競争的になります。同時に、属性特性の利用と処理により注意を払っている SIHG と Tianchi のパフォーマンスははるかに優れていました。ただし、これら 2 つのアルゴリズムは、グループベースの不正行為検出に重要なグラフ構造とコミュニティ情報を活用できませんしたがって、GFDN とのパフォーマンスには依然として大きな差があり、たとえば、TB データセットの F1 スコアでは、GFDN と比較したパフォーマンスの向上は 47.65% を超えています。

        パターンベースのアプローチとの比較グラフ構造情報のみを使用するにもかかわらず、パターンベースの手法は、比較された既存の手法の中で最高のパフォーマンスを示します。RICD は、バイクラスターに近いものを探すことによって不正を検出しますが、これは厳密すぎるため、不人気な製品に関連する多数の不正エッジ、つまり次数が比較的小さい頂点を検出できません。したがって、RICD は AUC が高くなりますが、F1 スコアと精度は低くなります。同時に、適切な\アルファsum\ベータ, (\アルファ、\ベータ )-core を使用すると、予測で通常のエッジのほとんどを除外することで優れたパフォーマンスを達成できます。ただし、(\アルファ、\ベータ ) コアはまだ人気のない製品の不正行為を検出できません。一方で、\アルファ、\ベータ ()-core と GFDN の間には、エッジラベル情報や属性情報が利用できないため、性能差が大きくあります

        パターンベースの手法は優れたパフォーマンスを発揮するため、詳細な分析のために TB データセットに対するパターンベースのアルゴリズムとの比較をさらに提供します。\アルファ、\ベータ 具体的には、GFDN は、 () コア内のパラメーター値などのパラメーター値を変更することによって、パターンベースのアプローチと比較されます\アルファ、\ベータさらに、\アルファ、\ベータ  ( )-split という 2 つの方法を比較しました。\アルファ、\ベータまず( ) コアの外側のエッジをフィルタリングして除外し、それらを正当なエッジとして扱います。次に、GFDN の予測ネットワークを使用して、\アルファ、\ベータ( ) カーネル内のエッジで後続の予測が実行されます。比較結果を図 3 に示します。

         図 3 から、(2, 5) コアのパフォーマンスが (2, 1) コアよりも優れていることがわかります。これは、製品の程度が高いほど、不正行為に巻き込まれる可能性が高いことを示しています。さらに、RICD は、k1 = 1、k2 = 2、つまり少なくとも 1 つの顧客頂点と 2 つの製品頂点を持つ二乗の場合に最高のパフォーマンスを達成します。k1 と k2 の値が大きい場合、厳密なフィルタリングにより RICD の精度が低下します。(2, 1) カーネルに縮退すると、そのパフォーマンスが最適になります。GFDN は構造、属性、タグ内の情報を利用できるため、上記の方法よりも優れたパフォーマンスを発揮します。

        ( \アルファ、\ベータ ) 分割では、構造情報を使用してグラフが分割されているため、( ) 分割 のネットワークでは構造特徴  と は利用できません。具体的には、(2,1) コアと (2,5) コアがテストされます。図 3 からわかるように、(2,5)-スプリットでは多くの不正なリンクが正規のリンクとして扱われるため、(2,5)-スプリットの時間は (2,1)-スプリットよりも優れており、予測ネットワークの利得が制限されます。これら 2 つの方法のパフォーマンスは、構造情報、つまり (  ) コア分布を不正検出に完全に利用できないため、二次的に GFDN よりも優れています。\アルファ、\ベータ\アルファ、\ベータ

        不正検出方法との比較FRAUDAR のパフォーマンスは、サブグラフ密度に基づいて不正を予測し、豊富な属性と構造情報を無視するため、TB の F1 スコアが 25.80% であるなど、貧弱です。CF1 と CF2 は、最新のクリック ファーミング検出モデルです。ただし、CF1 はエッジ ラベル情報を完全に利用できず、CF2 はグラフ構造情報を利用しないため、これら 2 つのアルゴリズムのパフォーマンスが低下します。

        GFDN の亜種との比較。GFDNの各部の有効性を実証するためにアブレーション実験を行っています。構造、属性、エッジ ラベル情報をマイニングすることにより、Naive モデルは、主に単純なニューラル ネットワークで構成されている場合でも、優れた精度を達成できます。GFDN-S の精度は、SIHG や Tianchi よりわずかに高いだけで、( \アルファ、\ベータ)-core よりは大幅に低くなります。この結果は、タスクの精度を大幅に向上できることを示しています。GFDN-F の精度は Naive に近いですが、GFDN には遠く及ばず、属性特徴の重要性がわかります。GFDN-L と GFDN-C の精度は、利用できる\ワイドハット{Y}_U かどうかにかかわらず、GFDN と比較してわずかに低下します。C_U頂点分類学習目標とコミュニティ所属表現の両方が、そのような攻撃検出の有効性を向上させることができると結論付けることができます。それにもかかわらず、この改善は、構造的特徴および属性特徴を利用することによってもたらされる改善ほど劇的ではない。

4.3 STARS攻撃検知性能

        本節では、STARS 攻撃検知タスクにおける GFDN の評価結果を報告します。ベースライン手法である FRAUDAR、()-core、および Naive に加えて\アルファ、\ベータ、GFDN と最先端の詐欺師検出手法である RTV も比較します [57]。GFDN は半教師ありモデルであるため、RTV の教師ありバリアント (公平性を保つために RTV-SUP と名付けられました) と比較します。このメソッドの詳細な設定を付録 A.1 に示します。

        実験結果を表 4 に示します。GFDN は、詐欺師検出タスクにおいてベースライン手法を大幅に上回ります。

         パターンベースのアプローチとの比較。( \アルファ、\ベータ)-Core は高い再現率スコアを達成しますが、精度スコアは低くなります。この結果は、構造情報のみに基づく詐欺師検出方法では、多数の誤検知予測が発生する可能性があることを示しています。比較すると、私たちが提案する GFDN はより高い精度スコアを達成し、F1 スコア、精度、および AUC の点で優れたパフォーマンスをもたらします。この改善は、GFDN のタグと属性情報を活用することによってもたらされます。

        詐欺師の検出方法との比較具体的には、RTV-SUP は、アルファ データセット上で GFDN を除く他のすべてのモデルよりも優れています。RTV-SUP と比較して、GFDN は F1 スコア指標で約 3% の向上、Wrt で約 11% の向上を達成しています。曲線の下の領域。GFDN の進歩は主に高い再現率によってもたらされます。私たちが提案したモデルの再現率スコアは 1 に達する可能性があります。これは、GFDN の予測に偽陰性がないことを意味します。これは詐欺師検出方法の重要な特徴ですが、RTV-SUP では満たされていません。OTC データセットでは、GFDN のパフォーマンスが 30% 以上向上しました。F1 スコア指標と RTV-SUP の比較。GFDN は精度値において RTV-SUP よりも大きな利点があり、これは GFDN が RTV-SUP と比較して誤報の数を減らす能力に優れていることを示しています。

        GFDN の優位性をさらに実証するために、クエリ時間の比較、詳細な有効性分析、パラメーター感度分析を実行しました (結果は付録 B で報告されています)。「クエリ時間の比較」セクションでは、詐欺および詐欺師の検出について比較した方法のクエリ時間コストを報告します。詳細な有効性分析により、\アルファ、\ベータモデル内で ( ) コアがどのように機能するかがわかります。パラメーター感度分析では、さまざまなパラメーターの下でモデルのパフォーマンスをテストします。これらの実験は、GFDN の効率、\アルファ、\ベータモデル内の ( ) カーネルの重要性、およびパラメーターに対するモデルの感度を示しています。

B法分析

B.1 クエリ時間の比較

        このセクションでは、「RideItem's Coattails」攻撃検出と STARS 攻撃検出の比較方法のクエリ時間コスト、つまりテスト セット内の不正を区別する時間について報告します。

        「Ride item's Coattails」攻撃検出の効率結果を図 4 に示します。学習ベースの方法と比較すると、LPA は最も効率的な方法ですが、精度はこれらの方法の中で最も低くなります。同時に、GFDN は TC 上の他の学習ベースの方法よりも桁違いに高速です。不正検出方法と比較すると、CF2 の効率が最も優れていますが、GFDN のパフォーマンスは GFDN よりも大幅に優れていますが、他の方法の効率と精度は GFDN よりもはるかに低くなります。SOTA メソッドである RICD は、GFDN と比較して約 5 桁のクエリ時間を必要とします。TC および TB データセットでは、(,) カーネルの効率は GFDN に近いかわずかに速いですが、GFDN は (,) カーネルと比較して F1 スコア指数をそれぞれ 11.03% および 17.83% 改善します。したがって、GFDN は非常に高い精度と競争効率を実現できます。

 B.2 徹底した有効性分析

        このセクションでは、初期特徴の構造情報と、TB データセットに対するクラスタリング モジュールの有効性を詳しく分析します。C_U 具体的には、モデル内の 2 つのトレーニング パラメーターを使用して、コミュニティへの所属予測の結果を分析します構造情報によってもたらされる影響を分析するために、さまざまな量と値によって引き起こされる影響もテストしました。

        図 6(a) のヒートマップは、各クラスターに割り当てられたすべての詐欺師が Í を詐欺師である確率の合計を示しています。具体的には、各バーはコミュニティを表します。濃い赤色のバーは、詐欺師が対応するコミュニティに属している可能性が高いことを示します。私たちのモデルによれば、詐欺師は複数のコミュニティに均等に分散しているのではなく、ほぼ複数のコミュニティに分散していることがわかります。私たちのモデルが詐欺師コミュニティを効果的にマイニングしていることは明らかです。

         図 6(b) は、顧客と製品の構造的特徴の学習された重量値をそれぞれ示しています  。この図では、横軸は\ベータ(2, ) カーネル内の値を表します。赤が濃いほど、対応する重みの絶対値が大きくなります。顧客頂点と製品頂点の両方について、モデルは = 1 によって得られる特徴を高く評価していることがわかります\ベータ。これは、すべての詐欺師が (2, 1) の中心にいるはずであるという事実によって検証できます。の値を変更すると\ベータ、より大きな製品がより大きな重みを持った特徴エントリを生成することがわかります。このモデルは人気のある製品に重点を置いていることがわかります。

        構造情報の有効性をさらに実証するために、前の段落で報告された上位 N 個の最大の重み値、つまり図 6(b) に示されている重みの値を使用して構造特徴を生成します。実験結果を図 6(c) に示します。x 軸は N の値を示します。最初の 3 つの構造フィーチャーを使用すると、フィーチャーを 1 つだけ使用した場合に比べて、モデルのパフォーマンスが大幅に向上します。N が増加するにつれてパフォーマンスは向上し続け、N > 5 で安定します。

おすすめ

転載: blog.csdn.net/qq_40671063/article/details/133065533