グラフ上の ML の従来の方法
Tongji Zihao 先輩の中国語の説明をもとにメモを作成しましたので、ご興味がございましたら、ステーション b に直接行って詳細なビデオをご覧ください: コンベアベルト
:
https://github.com/TommyZihao/zihao_course/blob/main/ CS224W/1-イントロ.md
ノードレベルの機能
グラフ データ マイニングは、ノード レベル、接続レベル、グラフ全体のレベルに分割できます。
可能なオプション
ノード、接続、サブグラフ、および完全なグラフはすべて機能を持つことができます
- 重み(例:通信頻度)
- ランキング(親友、二番目に親友…)
- タイプ (友人、親戚、同僚)
- サイン : 友人対敵、信頼対不信
- グラフの残りの部分の構造に応じたプロパティ: 共通の友人の数
マルチモーダル機能: 画像、ビデオ、テキスト、オーディオ
あなた自身の特性を属性特性
といいます収入、学歴、年齢、婚姻状況、勤務単位、信用情報
このセクションでは、グラフ内のノードの機能に焦点を当てます。ブリッジ、ハブ、エッジ ノードのいずれであっても、ノードがコミュニティ内でどのような役割を果たすかに重点を置きます。
特徴設計 :
グラフ上で効果的な特徴を使用することが、優れたモデルのパフォーマンスを達成するための鍵です。
従来の ML パイプラインは手作業で設計された特徴を使用します。人工的に構築された特徴 (特徴エンジニアリング)
人工的に設計された特徴ベクトルを使用し、そのベクトルを機械学習特徴に入力できます (特徴エンジニアリング)
目標 : 一連の主題について予測を行う
設計上の選択肢 :
機能 : d 次元ベクトル
オブジェクト : ノード、エッジ、ノードのセット、グラフ全体
目的関数 : どのようなタスクを解決することを目指しているのか?
ノードレベルでの特徴量エンジニアリング (ノードレベルのタスク)
プロセス: 特定のノードの D 次元ベクトルを入力し、そのノードが特定のタイプである確率を出力します (図に示すように) D 次元ベクトルを適切に構築することが重要であり、その品質は高くなければなりませんノードを分類し、既知のグラフから未知のものを推測するのに十分な
半教師あり学習 (半教師あり学習) のノード分類問題
- 目標: ネットワーク内のノードの構造と位置を特徴付ける:
- ノード次数 (ノードの接続数。質ではなく量のみ)
- ノードの中心性(ノードの重要性)
- クラスタリング係数
- グラフレット (サブグラフ パターンを定義)
ノード次数
ノードの中心性
重要度は実際にはノードの品質です。
ノード中心性 cv では、グラフ内のノードの重要度が考慮されます。
ノードの重要度は他のカテゴリに分類できます。
- 固有ベクトルの中心性
- 媒介中心性
- 近さ中心性
- 他にもたくさん…
固有ベクトル中心性 :
ノードの重要度は、隣接するノードの重要度の合計に等しくなります。これは行列演算を使用できる再帰的問題 (再帰的方法) であり、
実際には隣接行列の固有ベクトルと固有値を求めるのと同じです。
行列形式の再帰方程式
A: 隣接行列
C: 中心性ベクトル
媒介中心性
これは、ノードが交通渋滞に陥っていて通過する必要があるかどうかを判断するために使用できます。
ノードは、他のノード間の多くの最短パス上にある場合に重要です。
各ペアの最短距離を計算します (図に示すように)
近さ中心性
ノードは、
他のすべてのノードへの最短パス長が短い場合に重要です。
クラスタリング係数
クラスタリング係数(クラスターの数)は
三角形の数を数えます
ノードごとにクラスタリング係数が異なるため、ノード間の接続関係を見つけ、
ノード間の接続関係が密接な
エゴネットワーク(自己中心ネットワーク)で
あることを示します 三角形は、事前にサブグラフを定義しましたが、グラフレットなどの他の定義も可能です
グラフレット
異性体とみなすことができます.
異なるノードは異なるノードの役割を果たします.
特定のノードの周りのグラフレット部分グラフの数を抽出し, グラフレット次数ベクトルと呼ばれるベクトルを構築します. これは
ノードのトポロジーを記述し, 2つのGDVベクトルを比較することができます.ノードは距離と類似性を計算できます
類推
- ノードが接触する度数(エッジ)
- クラスタリング係数は、ノードが接触する三角形の数をカウントします。
- Graphlet Degree Vector(GDV): ノードのグラフレットベースの機能
- ノードが接触する GDV 数(#graphlets)