1. 人工特徴量エンジニアリングと接続特徴
- ノード、接続、サブグラフ、およびグラフ全体には独自の属性特性があり、属性特性は一般にマルチモーダルです。
- 属性フィーチャーに加えて、接続フィーチャーもあります。この講義の焦点は、人工的な特徴抽出手法を使用して接続特徴を抽出することです。
2. ノードレベルでの接続特徴の特徴抽出
- ノードの程度: 接続の品質ではなく、接続の数のみが考慮されます。
- ノードの中心性:
- 固有ベクトル中心性: 原理は、ノードの周囲のノードが重要であれば、そのノードも重要であるということです。
- 媒介中心性: 原理は、ノードがトラフィックのチョークポイントにある場合、そのノードは重要であるということです。
- 隣接中心性: 原理は、ノードがどこにでも近い場合、そのノードは重要であるということです。
- ノードのクラスタリング係数: ノードの周囲の凝集の度合いを測定します。これは、実際には、ノードをエンドポイントとして使用して三角形の数を確認することになります。
- Graphlets: クラスタリング係数の三角構造を部分グラフとみなすことができ、三角構造を他の部分グラフに置き換えることも可能、これがGraphletsです。ノードの周囲のさまざまなサブグラフの数を抽出すると、ベクトル Graphlet Degree Vector (GDV) を形成できます。このベクトルは、ノードの近隣トポロジ情報を記述するために使用できます。
- 他にも、PageRank、Katz 中心性などの測定方法があります。NetworkX には、使用できるさまざまなデータ マイニング アルゴリズムが含まれています。
3. 接続レベルでの接続特徴の特徴抽出
- つまり、接続の特徴を抽出し、接続を d 次元ベクトルに変換します。
- 2 つのノード間の距離に基づいて、次のようになります。
- 2 つのノード間の最短パスの長さ: 数と品質を無視して、長さだけを見てください。
- 2 つのノードのローカル接続情報に基づいて、次のようになります。
- 2 つのノード間で共通に隣接するノード (交差) の数
- 2 つのノード間の隣接ノードの交差セットと和集合の比率
- アダミック・アダル指数:
- S a = ∑ u ∈ N ( V 1 ) ∩ N ( V 2 ) 1 log ( ku ) S_{a}=\textstyle \sum_{u\in N(V_{1})\cap N(V_{2} )}\frac{1}{log(k_{u})}Sあ=∑u ∈ N ( V1) ∩ N ( V2)l o g ( kあなた)1。
- 2人の人が複数の著名人を通じてつながっている場合、彼らはそれほど親密ではない可能性が高いことが理解できます。普通の人を介した場合、おそらく関係はかなり良好です。
問題は、2 つのノードが共通の近傍ノードを持たない場合、上記 3 つの指標がすべて 0 となり意味がなくなり、グラフ全体の情報を見る必要があることです。
- グラフ全体の 2 つのノードの接続情報に基づく - Katz インデックス:
- 2 つのノード間の長さ k のパスの数を記録します。
- これは隣接行列の累乗を上げることで解決できます。
- グラフの隣接行列を A とすると、ノード u と v の間の長さ k のパスの数はA k A^{k}となります。あk行列の u 行目、v 列目の値
- 公式文節S u , v = ∑ l = 1 ∞ β l A u , vl = ( I − β A ) − 1 − I S_{u,v} = \sum_{l=1}^{\infty } \beta ^{l}A^{l}_{u,v}=(I-\beta A)^{-1}-ISあなた、 v=∑l = 1∞blA _あなた、v私=(私−βA ) _− 1−I,其中 β \beta βはスケーリング係数であり、その結果がカッツ係数行列になります。
4. 完全な画像レベルでの関連特徴の特徴抽出
- 得られた特徴は、グラフ全体の構造的特徴を反映しているはずです。
- Bag-of-node-degrees: 接続構造ではなく、ノードの次数だけを調べます。実際に、さまざまな次数に対応するノードの数を数えてください。
- グラフレットカーネル:
- グラフレットの数をカウントすると Bag-of-Graphlet が生成されます。これは Bag-of-* を一般化したものと考えられます。
- ノード レベルとは異なり、Graphlet はグラフ全体の観点から孤立したノードを持つことができます。
- さまざまなグラフレットの数を数えることによって、d 次元ベクトルを形成することもできます。
- 2 つのグラフの Bag-of-Graphlet を正規化し、定量的な積を実行した後、2 つのグラフのグラフレット カーネルが取得されます。
- しかし、Graphlet Kernel は計算量が多すぎてアプリケーション空間が非常に小さいため、Weisfeiler-Lehman Kernel につながります。
- ヴァイスファイラー・リーマン・カーネル:
- その特徴は、反復を通じてノードの語彙を継続的に強化することです。
- カラー微調整方式を採用しています。
- 複数の反復を通じて、ノードの色が微調整され、ノードの語彙が強化され、最後に異なる色のノードの出現数がカウントされて、特徴抽出を実装するためのベクトルが取得されます。
- 2 つのグラフのベクトルに対して定量的な積演算を実行すると、その結果がヴァイスフェイラー リーマン カーネルになります。
- 一般に、反復回数が多いほど、効果は高くなります。
- 注 1: 2 つのグラフのヴァイスフェイラー・リーマン カーネルを計算する場合、反復計算は同時に実行する必要があります。つまり、ノード カラー ボキャブラリは両方のグラフから同時に提供される必要があります。
- 注 2: NetwokX の weisfeiler_lehman_graph_hash の実装は上記のものとは異なりますが、gklearn.kernels.Weisfeilerlehmankernel は同じです。