ウェブ解析と機械学習

ネットワーク分析

マノリス・ケリス教授 (MIT 計算生物学ディレクター) による「人工知能と機械学習」
このレッスンでは、主にネットワークとグラフの知識を紹介します。
主な内容には、ネットワークとグラフの基礎知識 (ネットワークの種類、関連するアルゴリズム)、ネットワークのプロパティ (モチーフ特性、中心性など)、固有ベクトル、SVD特異値分解、PCA、Sparse PCA、t-SNEなど
とても良いと思います!たった1時間半の講義は、1年生の時に習った線形代数よりもはるかに面白くて刺激的で、線形代数は苦手ではありますが、学習や確認には支障はなく、おそらくある程度理解できると思います。終わり。
ビデオが必要な場合は、プライベート メッセージで YouTube リンクを送信できます


  • このレッスンの主な内容(Zoomから抜粋)

このトランスクリプトは、深層学習とネットワークに関する Manolis と Zijian の会話の要約です。彼らは、ネットワークがどのように機能するか、どのように構造化されるか、そしてネットワークをどのように分析するかについて話し合う対話の目標について話し合いました。マノリスは、グラフとネットワークがどのように機能するか、そしてそれらを推論にどのように使用できるかを説明します。マノリス氏は、ソーシャル ネットワーキングを使って人々を結び付け、彼らの活動を理解する方法を説明します。彼はまた、遺伝子やその他の調節機構の機能を予測するためにネットワークをどのように使用できるかについても示しています。マノリスは、Zoom でチャートがどのように機能するかを説明しています。彼は、ネットワークは相互依存する変数のセットであるのに対し、グラフは 2 つの間の情報の流れを表すために使用できる頂点のセットであると説明しました。Manolis は、ランダム化されたネットワークで重量転送を行う方法をデモンストレーションしています。彼は、行列とベクトルを乗算してノードの重みを取得する方法を示しています。Manolis は、Zoom の検索機能を使用して図内を検索する方法を示します。彼は、幅優先検索ツリーを作成する方法と、そのツリーを走査する方法を示しています。マノリス氏は、スモールワールドの概念と、人々がお互いの位置を知らなくてもウェブ上でつながりを見つける方法について説明しました。マノリスは、ネットワークがどのように機能するのか、そしてネットワークをどのように使用して私たちの周囲の世界を理解できるのかについて説明します。彼は、優先接続の概念と、それが人々の相互接続にどのような影響を与えるかについて語ります。彼はまた、べき乗則の分布が、ある人物と別の人物のつながりの強さにどのように影響するかについても説明しました。マノリスは Zoom のネットワークの特性について説明しています。彼は、ネットワークの中心性、近隣ノードの数、情報の流れ、および接続の程度に基づいたクラスタリングの方法について語ります。マノリスは、ネットワークにおける行列演算がどのように機能するか、またそれをネットワークの構造を理解するためにどのように使用できるかを説明します。Manolis は、固有ベクトルが行列演算とどのように組み合わされるかを説明しています。彼は、行列が完全な行列であり、各ベクトルが単位行列の倍数である場合、固有値は 2 つの組み合わせであると述べました。マノリス氏は、主成分分析 (PCA) がどのように機能するのか、またそれを使用して異なる Web サイト間の関係を表現する方法について説明します。Manolis は、ラプラシアン行列を使用してネットワークを分割する方法を説明します。

1.ネットワークとグラフの基礎とアルゴリズムの紹介

ネットワークタイプ (ソーシャル/バイオ/コンプ)、オイラー/ハミルトン、グラフ (行列/adj)

いくつかの生物学的ネットワーク

  1. 制御ネットワーク: 遺伝子と他の分子との関係を表現するネットワークです。これらの分子は遺伝子発現を制御することができ、たとえば、転写因子 (Transcription Factors、TF) は特定の遺伝子プロモーター領域に結合して、遺伝子発現を促進したり、遺伝子発現 (ネットワーク) を阻害したりすることができます。
  2. 代謝ネットワーク: これは、生物内のさまざまな代謝反応を記述するネットワークです。代謝ネットワークでは、ノードは代謝産物 (糖、脂肪酸など) を表し、エッジは代謝反応を表し、これらの反応を触媒する酵素 (酵素) は通常、エッジにマークされます。このネットワークは、生物内のエネルギーと物質の流れを理解するのに役立ちます。
  3. シグナリング ネットワーク: シグナリング ネットワークは、セル内およびセル間の信号伝送プロセスを記述します。たとえば、細胞膜上の受容体タンパク質は外部シグナル分子を受け取り、一連の酵素反応を通じて細胞内部にシグナルを伝達し、一連の細胞反応を引き起こすことができます。
  4. タンパク質機能相互作用ネットワーク (タンパク質機能相互作用ネットワーク) : このネットワークはタンパク質間の機能的関係を示します。ノードはタンパク質を表し、エッジは 2 つのタンパク質間の機能的関係を表します。たとえば、1 つのタンパク質が別のタンパク質の活性を活性化する可能性があります。
  5. 共発現ネットワーク (Co-expression Network) : このネットワークでは、ノードは遺伝子を表し、エッジは 2 つの遺伝子の発現パターン間の相関を表します。たとえば、2 つの遺伝子がさまざまな条件下で同様のレベルで発現される場合、同じ生物学的プロセスで機能する可能性があります。

  1. 要素の同定: 生物学的ネットワークでは、同定する必要がある要素には、遺伝子、転写因子、代謝産物などが含まれる場合があります。たとえば、あなたが提供した「ATTAAT」および「CGCTT」は、DNA 配列内の特定の転写因子結合部位 (つまり、調節モチーフ、Regulatory Motif) を探すことを意味する場合があります。
    • 調節因子 / 調節モチーフ / 標的遺伝子: 調節ネットワークにおいて同定される要素には、調節モチーフ (調節モチーフ) に結合することで標的遺伝子 (標的遺伝子) の発現を調節する転写因子 (調節因子) が含まれます。
  2. ネットワークを使用した発現レベルの予測 / 細胞活性の予測 / ジーンオントロジー (GO) の機能アノテーション用語の予測 : 生物学的ネットワークを分析することで、遺伝子発現レベル、細胞活性状態、および遺伝子の機能アノテーション (たとえば、ジーンオントロジー、GO、これは遺伝子機能を説明するための標準用語です)。
  3. 機能データからネットワークを推測:遺伝子発現データやタンパク質相互作用データなどの機能データを解析することで、生物学的ネットワークを推測することができます。たとえば、指定した「X=f(A, B)」と「Y=g(B)」は、数学モデルを通じて遺伝子またはタンパク質間の相互作用を記述する方法を表す可能性があります。
    • 活動パターン / 構造 / 機能: これらは、ネットワークのさまざまな特性、たとえば、ネットワーク内の活動パターン (たとえば、どの遺伝子が同時に活性化または抑制されるかなど)、ネットワークの構造 (たとえば、ネットワーク内のノードとエッジの分布)、およびネットワークの機能(たとえば、ネットワークがどのような生物学的プロセスを実行できるか)。
  4. ネットワーク構造分析: ネットワークの構造を分析すると、生物学的プロセスがどのように組織されるかを理解するのに役立ちます。たとえば、ネットワーク内のハブ (ノード次数分布) は、他の多くのノードに接続されているノードであり、これらのノードはネットワーク内で重要な役割を果たす可能性があります。ネットワーク モチーフはネットワーク内で繰り返される特定のパターンであり、特定の規制戦略を表す場合があります。機能モジュールは、ネットワーク内で連携して動作するノードのグループであり、特定の生物学的プロセスに参加する場合があります。

この分野の課題には、データの複雑さ、不完全性、ノイズ、計算要件とストレージ要件、複雑なネットワーク パターンから生物学的に意味のある解釈を導き出す方法などが含まれる可能性があります。

  • ネットワークは現実に比べてより抽象的な概念であり、例えばエッジは実際には存在せず、物と物の関係を表すだけであり、ノードはある意味確率変数に過ぎません。
  • エッジはデータ ポイント間の関係を表す: より抽象的なネットワーク モデルでは、エッジはデータ ポイント間の関係を表すことができます。たとえば、ソーシャル ネットワークでは、エッジは人々間の友情や交流を表すことができます。物理学では、エッジは粒子間の力を表すことができます。機械学習では、エッジはサンプル間の類似性を表すことができます。このようなネットワークは、ソーシャル ネットワーク分析、システム バイオロジー、レコメンダー システムなどの分野でよく使用されます。
  • 確率変数としてのノード: 最も抽象的なケースでは、ノード自体を確率変数として見ることができます。この表現は、ベイジアン ネットワークやマルコフ ランダム フィールドなどの確率的グラフィカル モデルで特に一般的です。このモデルでは、各ノードは確率変数を表し、エッジはこれらの確率変数間の確率的関係を表します。これらのネットワークは、自然言語処理、コンピューター ビジョン、バイオインフォマティクスなどの分野を含む、さまざまな複雑な予測および推論タスクに応用できます。

  1. 物理ネットワーク: このタイプのネットワークでは、エッジはノード間の実際の物理的な相互作用を表します。たとえば、物理的な制御ネットワークでは、エッジは、転写因子 (タンパク質) と 1 つ以上の遺伝子の発現を制御する DNA セグメントとの間の物理的な関連を表す場合があります。このタイプのネットワーク モデルは、多くの場合、タンパク質間相互作用データや転写因子結合部位データなどの実験データに基づいています。
  2. 関連性ネットワーク: 関連性ネットワークでは、エッジの重みがノード間の類似性を表します。たとえば、機能制御ネットワークでは、2 つの遺伝子が複数の環境条件下で同様の発現パターンを持つ場合、それらの間にエッジが存在する可能性があり、このエッジの重みはそれらの発現パターンの類似性を示します。このタイプのネットワーク モデルは通常、相関計算や相互情報量計算などの計算手法に基づいており、遺伝子発現データや表現型データなどのさまざまな種類のデータに適用できます。

各タイプのネットワークには長所と短所があります。物理ネットワークは生物学的メカニズムに関する明確な情報を提供できますが、実験の技術的制限により不完全または偏っている可能性があります。相関ネットワークは大規模なシステムレベルの洞察を提供できますが、観察されたパターンの根底にある特定のメカニズムを説明することが困難になる場合があります。したがって、実践的な研究では、より包括的かつ正確な理解を得るために、これら 2 つのネットワークを組み合わせることもよくあります。

確率的ネットワークとグラフィカル モデルは、グラフを使用して変数間の確率的関係を表す方法です。このアプローチは、さまざまなデータ分析や機械学習のタスクに役立ちます。ここでは、前述の 2 種類の確率的グラフィカル モデルを紹介します。

  1. ベイジアン ネットワーク: これは、各ノードが確率変数を表し、各エッジが変数間の確率依存性を表す有向グラフ モデルです。多くの場合、エッジは従属変数から結果変数を指しているため、そのようなネットワークは「因果関係」として表すことができます。たとえば、病気が特定の症状を引き起こす場合、ベイジアン ネットワークでは、「病気」ノードから「症状」ノードまでのエッジが存在します。ベイジアン ネットワークは、因果推論、予測、分類、その他のタスクに一般的に使用されます。
  2. マルコフ確率場 (MRF) : 無向グラフ モデルとしても知られ、各ノードが確率変数を表し、各エッジが変数間の確率関係を表す無向グラフ モデルです。ベイジアン ネットワークと比較すると、マルコフ確率場は因果関係を強調せず、変数間の相関関係を強調します。たとえば、ソーシャル ネットワーク上の友人全員が特定のスタイルの音楽を好む場合、その人もそのスタイルの音楽を好む可能性があります。マルコフ確率場は、画像セグメンテーションや画像復元などの構造予測によく使用されます。

グラフの概念はより数学的です

セットを表す無向グラフのエッジ

タプルとして表される無向グラフのエッジ

ネットワークをグラフと隣接行列で表現する

ここで先生が、グラフの重みの拡散に似た隣接行列 * 重みベクトルを紹介していて、これまで聞いたことのないアイデアだったので、gpt さんに質問してみました。

グラフ理論とネットワーク解析では、行列の乗算とノードの重みの拡散は密接に関係しています。この関係を視覚化するために、簡単な例を考えてみましょう。

3 つのノードからなるネットワークがあると仮定すると、このネットワークは隣接行列で表すことができます。要素はノード間の接続を表します。たとえば、ノード 1 とノード 2 の間に接続がある場合、隣接行列の最初の行と 2 列目に値があります。この値は 1 (接続を示す) または別の値 (接続の強度または重みを示す) の場合があります。

各ノードに重みがあると仮定すると、これらの重みをベクトルで表すことができます。たとえば、[w1、w2、w3]。

隣接行列に重みベクトルを乗算すると、ネットワーク内での重みの拡散または伝播を表す新しいベクトルが得られます。具体的には、新しいベクトルの各要素は、元の重みと隣接行列の対応する行の内積 (つまり、各要素の乗算の合計) です。これは、各ノードの重みが、それに接続されている他のノードにどのように拡散されるかを表します。

たとえば、ノード 1 の重みが w1 の場合、新しい重みベクトルでは、ノード 2 の重みは元の w2 に隣接行列 (ノード 1 とノード間の接続を表す) の 2 行目の最初の列を加えたものになります。 2) と w1 の積。これは、ノード 1 の重みがノード 2 にどのように広がるかを表します。

このように、行列の乗算を使用してネットワーク内の重みの拡散をモデル化できます。これは、ソーシャル ネットワーク内の情報の伝播や生物学的ネットワーク内の信号の伝播のシミュレーションなど、多くのアプリケーションで非常に役立ちます。

なお、ここでは単純な線形拡散モデルを前提として説明します。より複雑なケースでは、拡散モデルは時間遅延やノードの容量制約などの他の要因を考慮する必要がある場合があります。さらに、ネットワークの接続に方向がある場合、新しい重みベクトルを計算するときに接続の方向も考慮する必要があります。

隣接リストは、より適切なスパース行列などを表すために使用できます。

幅優先検索 (最短パス)、深さ優先検索 (接続コンポーネント)

2. 現実世界における緊急のグローバル/ローカル ネットワーク プロパティ

グローバル: スモールワールド、スケールフリー、クラスタリング、モチーフ、類似性、ダイナミクス

ネットワークの個々のノードやエッジではなく、ネットワークの構造と接続方法によって決定されるネットワークのいくつかの新たな特性について言及しました。言及した各プロパティの説明は次のとおりです。

  1. スモールワールド プロパティ: このプロパティは、ほとんどのノードが比較的短いパスで他のノードに接続できることを示します。この属性の名前は、有名な「6 段階の分離理論」に由来しています。この理論では、どんな 2 人でも 6 段階以下のステップの連鎖を通じてつながりを見つけることができると述べられています。このプロパティの重要性は、大規模なネットワークであっても、情報がノード間で伝播される速度を考慮していることです。
  2. スケールフリーまたはべき乗則次数分布 (「スケールフリー」またはべき乗則次数分布):このプロパティは、ネットワーク内のほとんどのノードが接続をほとんど持たない一方で、少数のノード (センターまたはハブと呼ばれる) が存在することを示します。多くのつながり。これは、接続の 80% がノードの 20% に存在する 20/80 ルールのようなものです。ハブ ノードはネットワーク内で重要な役割を果たすため、この特性の重要性は、ネットワークの堅牢性と脆弱性を説明できることです。
  3. ネットワークの成長と優先的な接続: これは動的なネットワークの成長のモデルであり、新しいノードがすでにより多くの接続を持っているノードにリンクする傾向があり、これは「金持ちがさらに金持ちになる」現象です。このモデルは、ネットワークがスケールフリーまたはべき乗則次数分布の特性を示す理由を説明できます。
  4. クラスタリング係数: この指標は、ネットワーク内の隣接ノードも相互に接続されているかどうかを測定します。言い換えれば、ネットワーク内の開いた「三角形」(2 辺のみを持つ 3 つのノード) に対する閉じた「三角形」(互いに接続された 3 つのノード) の密度を測定します。この指標は、ネットワークの集約度およびコミュニティ構造を反映できます。
  5. ネットワーク モチーフの頻度: このインジケーターは、サイズ 3、4、5 のサブグラフの頻度など、ネットワーク内の特定のパターン (特定のサブグラフなど) の頻度を測定します。この指標は、ネットワークの複雑さと多様性を反映することができます。

これは教師チームの仕事です。フィードフォワード ループフィードバック ループ相互調整、**増幅* * 4 種類など、ネットワーク内の基本コンポーネントを分析します遺伝子では、相互調節を指します。

ネットワークはランダムではないことがよくあります

生物学的ネットワークは、生物学的システム内のさまざまな要素とその相互作用を表現したものです。生物学的ネットワークの特性を理解することは、生物学的システムの構造と機能を理解するのに役立ちます。ここでは、あなたが言及した生物学的ネットワークのプロパティのいくつかについて説明します。

  1. 階層的組織: これは、ネットワーク内のノードとリンクがさまざまなレベルに従って組織されていることを意味します。遺伝子制御ネットワークなどの生物学的ネットワークでは、通常、「マスター制御因子」が階層の最上位にあり、一連の「ローカル制御因子」の活動を制御します。
  2. 次数分布: これは、ネットワーク内のノードへのリンク数の分布を表します。多くの生物学的ネットワークでは、多数の接続を持つノード (「ハブ」または「ハブ」と呼ばれる) がいくつかありますが、ほとんどのノードは少数の接続しか持ちません。「インハブ」は、ほとんどの入次数に接続されているノードであり、「アウトハブ」は、ほとんどのアウト次数に接続されているノードです。
  3. 直径: これは、ネットワーク内の 2 つのノード間の最長最短パスの長さです。生物学的ネットワークでは、直径は情報や信号がネットワークを通過する速度と効率を理解するのに役立ちます。
  4. 情報転送: ネットワーク内で情報や信号が流れる方法を指します。たとえば、信号があるノードから別のノードに渡されたり、ネットワーク内のノードのサブセットを循環したりする場合があります。
  5. モジュール性: これは、ネットワークが複数のモジュールまたはコミュニティに分割でき、各モジュール内のノード間の接続密度がモジュール間の接続密度よりも高いことを意味します。生物学的ネットワークでは、モジュール性が機能の分化と特異性を反映することがあります。
  6. 局所性: これは、ノード間の接続が主に空間的に類似した場所に集中していることを示します。生物学的ネットワークでは、通常、空間的に近いノードは同様の機能または特性を持っています。
  7. クラスタリング: これは、ネットワーク内のノードの近隣ノードが相互に接続されている度合いを示します。生物学的ネットワークでは、通常、高度なクラスタリングはネットワークの安定性と堅牢性を反映します。
  8. サブネットワーク (サブネットワーク) : これは、比較的独立したシステムを形成するネットワーク内のノードと接続の一部を表します。生物学的ネットワークでは、サブネットワークは通常、特定の生物学的プロセスまたは機能に対応します。
  9. 流れの方向: ネットワーク内で情報や信号が流れる方向を示します。生物学的ネットワークでは、流れの方向は通常、上流のノードから下流のノードへ、たとえば遺伝子からタンパク質へです。
  • ノードのプロパティ: 中心性

  • ノード間: 類似性

いくつかの言葉で説明すると、

  1. 同類混合: これは、同様の属性を持つノードが相互に接続する可能性が高いことを意味します。たとえば、ソーシャル ネットワークでは、同じような興味や背景を持つ人々とつながることがよくあります。
  2. ノードの類似性またはノードの等価性: ノードの類似性には 2 つの基本的なタイプがあります。構造的に類似したノードは多くの同じ隣接ノードを共有し、定期的に同様のノードは同様のプロパティを持つ隣接ノードと接続を共有します。
  3. プロパティ クラスタリング: これは、ノードのグループが接続方法に応じて、クリーク、k-プレックス、k-コアなどの特定の構造を形成できることを意味します。クリークは、すべてのノードが相互に接続されている構造です。k-プレックスは、ほぼすべてのノードが相互に接続されており、各ノードが接続されていない隣接ノードが k 個未満である構造です。k-コアは、各ノードが少なくとも k 個のノードに接続されている構造。他のノードに接続されている構造。
  4. コンポーネントを使用したグラフ近傍の定義: ネットワークでは、コンポーネントを通じてノードの近傍またはコミュニティを定義するのが一般的な方法です。コンポーネントは、任意の 2 つのノードが少なくとも 1 つのパスで接続されているノードのコレクションであり、k コンポーネントは、任意の 2 つのノード間に少なくとも k 個の独立したパスがあるノードのコレクションです。
  • グラフはコンポーネントに分割されています

ネットワーク内の接続コンポーネントとコミュニティ検出に関するいくつかの概念について説明します。一つずつ説明していきます。

  1. 巨大な接続コンポーネント: 多くのネットワークでは、ほとんどのノードが大きな接続コンポーネントに含まれています。つまり、任意の 2 つのノード間に少なくとも 1 つのパスが存在します。ただし、この大きなコンポーネント内には、ソーシャル ネットワークの友人クラスターなどの下部構造がまだ存在します。
  2. グラフ分割アルゴリズム: これらのアルゴリズムは、クラスター内の接続ができるだけ多く、クラスター間の接続ができるだけ少なくなるように、グラフのノードを k 個のクラスターに分割しようとします。グラフ分割問題の最も単純な形式は、グラフのノードを 2 つの等しいサイズのクラスターに分割するグラフ二分割問題です。これは、ヒューリスティック アルゴリズムによって近似的にのみ解決できる NP 完全問題です。
  3. Kernighan-Lin アルゴリズム: これは古典的なグラフ分割アルゴリズムであり、最初にノードを 2 つのクラスターにランダムに分割し、次にクラスターのメンバーを繰り返し調整してクラスター間の接続を減らします。
  4. スペクトル分割 (スペクトル分割) : これは、グラフのラプラシアン行列に基づくグラフ分割方法であり、グラフのノードをいくつかのクラスターに分割しようとします。これにより、クラスター間の「拡散」(つまり、情報)またはクラスター拡散内の信号)をできるだけ小さくします。
  5. コミュニティ検出アルゴリズム: これらのアルゴリズムは、グラフ内の密接に接続されたいくつかの小さなクラスター、つまりコミュニティを見つけようとします。一般的に使用されるコミュニティ検出方法には、モジュール性最大化、スペクトル方法、媒介性ベースの方法などが含まれます。

  1. パーコレーションとネットワーク復元力: パーコレーション理論は、ネットワーク接続に対するノードやエッジのランダムな削除の影響など、ネットワーク内の確率的プロセスを説明するために使用されます。この理論は、ネットワークの回復力、つまり、ノードまたはエッジの喪失 (ルーターの障害、ネットワーク攻撃、ワクチン接種など) に直面してもネットワークがどの程度機能を維持できるかを理解するのに非常に役立ちます。
  2. ネットワーク上の疫病: ネットワーク上での病気の蔓延をモデル化すると、病気が集団間でどのように広がるかを理解するのに役立ちます。このモデルでは通常、各ノード (人など) がいくつかの異なる状態 (感受性のある状態、感染した状態、回復した状態など) になる可能性があり、時間の経過とともにノードの状態は状況に応じて変化する可能性があると想定されています。病気の伝染率などの一部のルールが変更されます。
  3. ネットワーク上の動的システム: これには、代謝モデリングや情報フローなど、ネットワーク上の時間依存プロセスのモデル化が含まれます。この種のモデルは、安定性や同期性など、ネットワーク内の動的な動作を理解するのに役立ちます。
  4. ネットワーク検索: ネットワーク検索には、ネットワーク内の特定の情報またはノードの検索が含まれます。Web 検索における重要な問題は、Web 検索や分散データベース、メッセージ パッシング システムなどで効率的な検索戦略を設計する方法です。

ローカル: 中心性の指標 (次数、中間性、近さなど)

以前にネットワークのいくつかのグローバル プロパティについて説明しましたが、今回はネットワークのいくつかのローカル プロパティについて説明します。

中央の緑色のノードは中心性は高いですが次数が低く、2 つのネットワークが分離される場合、これらのノードが攻撃対象として選択されます。

ネットワーク内のノードの重要性を測定するために使用されます。これらの概念を詳しく説明しましょう。

  1. 次数中心性: 無向グラフの場合、ノードの次数中心性は、その接続数 (つまり、ノードに隣接するノードの数) を指します。有向グラフでは、通常、内次中心性 (このノードを指すノードの数) と外次中心性 (このノードが指す他のノードの数) を別々に計算します。重み付きグラフの場合、ノード接続の重みの合計である重みの中心性を考慮できます。
  2. 媒介中心性: ノードの媒介中心性は、ノードを通過するすべての最短パスの割合を指します。ノードの媒介中心性が高い場合、そのノードがネットワーク内の情報の流れやその他の種類のフローにおいて重要な制御役割を担っていることを意味します。エッジの媒介中心性、つまり、このエッジを通過するすべての最短パスの割合も同様に定義されます。
  3. 近接中心性: ノードの近接中心性は、ネットワーク内の他のすべてのノードへの最短パス長の合計の逆数です。ノードの近接中心性が高い場合は、そのノードがネットワーク内の他のノードに平均して近いため、情報を広めたり、ネットワーク内の他のノードに影響を与えたりするのに効果的である可能性があることを意味します。
  4. 固有ベクトル中心性: 次数中心性の概念をある程度拡張したものです。
  5. : ノードの固有ベクトル中心性は、そのすべての隣接ノードの固有ベクトル中心性の合計に等しくなります。言い換えれば、ノードの重要性は、そのノードに隣接するノードの数だけでなく、それらの隣接ノードの重要性にも依存します。数学的には、この定義により、ネットワーク隣接行列の固有ベクトルを含む方程式が導かれます。ネットワークの隣接行列は、各要素が 1 つのノードと別のノード間の接続を表す正方行列です。この方程式の解は固有ベクトル中心性です。

3. 線形代数の復習

線形代数の基本を復習する

固有ベクトルと特異ベクトルの分解

ここでは、行列乗算の演算から始まり、代数レベルから幾何レベルに移行し、SVD 特異値分解 (特異値分解) に至り、次に固有ベクトル (固有ベクトル) について説明します。

多くの計算科学、データ サイエンス、機械学習の問題では、行列とベクトルの乗算を計算する必要があることがよくあります。たとえば、行列 A とベクトル x が与えられた場合、y = Ax を計算する必要があります。これは数学的には非常に直感的ですが、図的に理解すると、このプロセスはいくつかの新しい発見をもたらすかもしれません。

まず、行列 A は、各ノード i が行列の行に対応し、各エッジがその行の要素を表すグラフとして考えることができます。ベクトル x はグラフ内の各ノードの初期ラベルとみなすことができ、ベクトル y は計算された新しいラベルです。

グラフ解釈では、ノード i の新しいラベル y(i) は、その隣接ノード (つまり、元のラベル) の x 値に、対応するエッジ ラベル (つまり、隣接ノードに対応する行列要素) を乗算することによって取得されます。これは行列にベクトルを乗算するプロセスであり、グラフの観点から見ると、重みの拡散または情報の伝播プロセスです。

この観察により、興味深い事実が明らかになります。つまり、密行列とベクトルの乗算は、疎行列とベクトルの乗算の特殊なケースにすぎません。スパース行列では、ほとんどの要素はゼロであるため、グラフでは、ほとんどのノードには少数の近傍ノードしかありません。一方、密行列では、すべてのノードが他のすべてのノードに接続されます。つまり、すべてのノードが他のすべてのノードから情報を受け取ります。したがって、グラフの観点から見ると、疎行列とベクトルの乗算はより一般的な計算モデルですが、密行列とベクトルの乗算はこのモデルの特殊なケースにすぎません。

行列はこのベクトルを変換しています

行列にベクトルを乗算する場合、この操作は線形変換と考えることができます。この線形変換は、入力ベクトルを新しい空間にマッピングし、その位置または向きを変更するものとみなすことができます。このプロセスでは、ベクトルの各成分に行列の各要素を乗算して、新しいベクトルを取得します。これを重量拡散といいます。

たとえば、2D ベクトル v = (v1, v2) と 2x2 行列 A = [[a11, a12], [a21, a22]] があるとします。行列 A とベクトル v を乗算した結果は、新しい 2 次元ベクトル w = (w1, w2) になります。ここで、w1 = a11*v1 + a12*v2、w2 = a21*v1 + a22*v2 となります。新しいベクトル w の各成分は、元のベクトル v の各成分を行列 A の要素によって重み付けすることによって取得されることがわかります。

したがって、ベクトルによる行列の乗算が重みの拡散に似ていると言うとき、実際には、変換プロセス中に入力ベクトルの各成分が行列内の要素によって重み付けされて、新しいベクトルを形成することを意味します。

さらに、高次元空間での点変換の観点からは、この線形変換は、空間での回転、スケーリング、傾斜、またはその他の形式の幾何学的変換に似ていますこの変換により、空間内のベクトルの位置と方向が変更されますが、ベクトルの線形関係などのいくつかのプロパティは維持されます。つまり、ベクトルが他の 2 つのベクトルの線形結合である場合、変換後、これは関係は今も維持されています。したがって、行列とベクトルの乗算は、高次元空間における幾何学的変換として見ることができます。

  • SVD特異値分解

線形代数における行列演算は幾何学的に説明できます。以下は、せん断、回転、スケーリングの 3 つの行列演算の幾何学的解釈です。

  1. せん断: 2 次元空間では、せん断変換はオブジェクトの形状を変更しますが、その面積は変更しません。特定のベクトルについて、その一方向 (x 方向など) の座標は、別の方向 (y 方向など) の座標の倍数だけ増加します。せん断マトリックスには非対角要素が含まれています。

    [1, a]
    [0, 1]
    

    この行列は、y 方向の動きを x 方向の動きに変換します。

  2. 回転: 回転変換は、オブジェクトを平面上の特定の点を中心に特定の角度だけ回転させますが、その形状やサイズは変更しません。2 次元空間では、回転行列は角度 θ で表すことができます。

    [cosθ, -sinθ]
    [sinθ, cosθ]
    

    この行列はベクトルを角度 θ だけ回転します。

  3. スケーリング: スケーリング変換はオブジェクトのサイズを変更しますが、形状は変更しません。2 次元では、スケーリング行列はスケーリング係数 a と b で表すことができる対角行列です。

    [a, 0]
    [0, b]
    

    この行列は、x 方向の長さに係数を乗算し、y 方向の長さに係数 b を乗算します。

これは非常に強力です。なぜなら、∑ ∑は対角行列であり、その対角線上の各値は各次元のズーム サイズを表します。U と V は単純に回転します (サイズは変更されません)。

同様に、M*x も関数とみなすことができ、x に V* (回転)、次に S (スケール)、最後に U (回転) を掛けます。M 行列を乗算した効果と同等です。

私の線形代数の基礎はあまり良くなく、SVD 分解は数語で明確に説明できないため、ここは独学で学ぶ必要があります (将来さらに理解して、また戻ってきて追加します)


上記の操作 (剪断、回転、拡大縮小) を使って、教師は特徴ベクトルとは何かについて話し始めました。

以下に例を示します。M は行列6 − 2 4 0 \begin{matrix} 6&-2\\ 4&0\\ \end{matrix}6420, x は1 2 \begin{行列} 1\\ 2\\ \end{行列}12、この 2 つの乗算は、x に対して一連の操作 (回転、スケーリング、および回転) を実行するのと同等ですが、結果は x に対する単純な線形変換 (2*x) と同等になります。

この理解は驚くべきものです。つまり、M が空間を再形成しても、この x は変化しません。

gpt4 による:

幾何学的な意味では、行列 A の固有ベクトルは、A の線形変換の下で方向が変化しない (反転される可能性がある) が、長さがスケーリングされるベクトルです。このスケーリング係数は、対応する固有値です。つまり、v が行列 A の固有ベクトルであり、λ が対応する固有値である場合、Av=λv、つまり線形変換 A は固有ベクトル v に作用し、これは v を独自の方向に沿って引っ張ることと等価です。または λ 倍に圧縮します。

簡単な例として、2x2 行列で表される 2 次元空間での線形変換を考えてみましょう。行列に線形に独立した 2 つの固有ベクトルがある場合、それらはそれぞれ x 軸と y 軸に沿ったものになります。x 軸に沿った固有ベクトルの場合、線形変換によりそれらは伸長または圧縮されますが、方向は同じままです。y 軸に沿った固有ベクトルの場合も、同じことが起こります。この変換の効果は、空間の方向を変更せずに空間全体を引き伸ばしたり圧縮したりすることです。

m*m 行列の場合、対応する固有ベクトルの数が議論されます。

行列を列ベクトルとして考えてください。これらのベクトルが空間内で平行でない場合、m 個の固有ベクトルが存在します。平行 (線形相関) がある場合、<m

gpt4 による:

m*m 行列の固有ベクトルの数は、行列の特性によって異なります。理論的には、フルランク m*m 行列は、最大 m 個の線形独立固有ベクトルを持つことができます。これらの固有ベクトルは、行列が存在する空間の基礎を形成できます。

ただし、特定の数はm未満であってもよい。これは主に、1 つの固有値が複数の線形関連固有ベクトル、つまり特徴空間に対応する可能性があるためです。たとえば、行列に同じ 2 つの固有値がある場合、2 つの固有値に対応する固有ベクトルは線形に依存する可能性があるため、線形に独立した固有ベクトルは 1 つだけを持つ可能性があります。

また、行列がフルランクでない場合、m 個の線形に独立した固有ベクトルを持たない可能性があります。たとえば、行列が特異である (つまり、その行または列が線形に依存している) 場合、その固有ベクトルの数は m よりも少ない可能性があります。

一般に、m*m 行列の固有ベクトルの数は、固有値 (重複を含む) の数と、各固有値に対応する固有ベクトルの線形独立性に依存します。

例を使用して、行列とベクトルの乗算と固有ベクトル/固有値の関係を示します。説明は次のとおりです。

まず、指定された行列 S には 3、2、0 の 3 つの固有値があり、対応する固有ベクトルはそれぞれ v1、v2、v3 です。各固有ベクトルに対する行列 S の役割は恒等変換とみなすことができますが、各固有ベクトルに対する倍率 (つまり固有値) は異なります。

次に、ベクトル x を指定すると、これら 3 つの固有ベクトルの線形結合として表すことができます: x = 2v1 + 4v2 + 6v3。x に対して行列 S の線形変換を実行すると、v1、v2、v3 は S の固有ベクトルであるため、各 v は対応する固有値によってのみ増幅され、方向は変わりません

これは ** を意味します。最初に x に対して行列 S の線形変換を実行し、それを v1、v2、v3 の線形結合として表現すると、結果は最初に x を v1 の線形結合として表現したことと同じになります。 v2、v3 を組み合わせてから、各 v に対して S の線形変換を実行します。**これは、行列と固有ベクトル/固有値が幾何学的に意味するものです。

複雑な行列変換問題の場合、通常、このような基底のセット (つまり、固有ベクトル) を見つけて、この基底のセットでの変換を対角行列に単純化できるようにしたいと考えます。つまり、各基底ベクトルは次のように変換されるだけです。対応する固有値は拡大され、互いに影響を与えません。これは、実際の問題を解決する際の固有ベクトルと固有値の値です。

上の太字部分が重要なポイントで、簡単に言うと、S*x は一連の複雑な変換ですが、x は v1、v2、v3 (S の固有ベクトル) の線形結合として表現できます (x = 2v1 など)。 + 4v2 + 6v3)、つまり S*x =2S*v1+4S*v2+6S*v3 となります。

固有ベクトルであるため、行列 * 固有ベクトル = 固有値 * 固有ベクトル、これは非常に簡単で、スカラーを掛けるだけなので、S*x =2*3*v1+4*2*v2+6*​​0*v3 =6v1+8v2 となります。

この例は、「小さい」固有値の影響が限定的であることも示しています。上の例では、3 番目の固有値が 0 であるため、その固有値に対応する固有ベクトル v3 に対する S の寄与は事実上無効です: Sv3 = 0v3 = 0。これは、行列の固有値が非常に小さい場合、行列変換におけるこの固有値に対応する固有ベクトルの影響が非常に限定されることを意味します。逆に、固有値が大きい場合、対応する固有ベクトルは行列変換において比較的大きな影響を及ぼします。主成分分析 (PCA) などの一部の問題では、より大きな固有値を持つ固有ベクトルのみに焦点を当てる傾向があるのはこのためです。これは、行列変換下でより大きな影響を及ぼし、主要な情報が含まれているためです。

  • 特異値分解 (より一般的なケース) については前述しましたが、S のすべての固有値が実数であり、S が m 個の線形独立な固有ベクトルを持つ場合、固有値分解 (特殊なケース) が得られます。

行列 S の場合、m 個の線形に独立した固有ベクトルがある場合 (つまり、行列が非縮退である場合)、固有値分解 (または対角化) が行われます: S = UAU^-1。

この内訳では次のようになります。

  • U は、列が S の固有ベクトル v1、v2、...、vm である mxm 行列です。これらの固有ベクトルは通常、長さ (またはノルム) が 1 になるように正規化されます。
  • A は mxm の対角行列で、その対角線上の要素は S の固有値 λ1、λ2、...、λm です。これらの固有値は、U の固有ベクトルに対応します。
  • U^-1 は U の逆行列です。

この分解により、非縮退行列 S はその固有ベクトルの行列 U、対角行列 A、および U の逆行列の積として表現できることがわかります。この分解は、線形微分方程式を解くとき、行列の単純な計算を実行するとき、データの次元削減 (PCA など) など、多くのアプリケーションで非常に役立ちます。

固有/対角分解と特異値分解の違いと関係について (gpt4 による):

固有値分解と特異値分解 (SVD) はどちらも、行列をより単純な行列の積に分解する方法ですが、異なる状況に適用され、異なる特性を持ちます。

固有値分解

固有値分解は、正方行列、つまり行と列の数が同じ行列に対して機能します。行列に n 個の線形に独立した固有ベクトルがある場合、行列は次のように分解できます。

A = QΛQ^−1

ここで、Q は固有ベクトルの行列、Λ は対角線上に固有値を持つ対角行列です。n 個の線形独立固有ベクトルを持たない正方行列など、すべての正方行列が固有分解できるわけではないことに注意してください。

特異値分解

特異値分解はより一般的であり、正方行列に限定されず、任意の m×n 行列に適用できます。行列 A は次のように分解できます。

A = UΣV^T

U と V が直交行列である場合、Σ は対角線上に非負の要素を持つ対角行列であり、対角線上の要素は特異値と呼ばれます。

違いとつながり

  1. 固有値分解は正方行列に対してのみ機能しますが、特異値分解は任意の行列に対して機能します。
  2. 固有値分解では、行列に n 個の線形に独立した固有ベクトルが必要ですが、特異値分解では行列にこの要件はありません。
  3. 固有値分解の固有ベクトルは常に直交するとは限りませんが、特異値分解の U 行列と V 行列の列ベクトルは常に直交します。
  4. 特異値分解の特異値は常に実数で非負ですが、固有値分解の固有値は任意の複素数にすることができます。
  5. どちらの分解でも、行列に関する重要な情報が得られます。たとえば、固有値と固有ベクトルは線形マップの「伸縮」と「回転」の方向を示し、特異値分解の特異値は行列の主な「エネルギー」方向を示します。
  6. 行列 A が実対称行列の場合、固有値分解と特異値分解は同等です。この場合、固有値と特異値は実数であり、固有ベクトルと左右の特異ベクトルは同じです

4. 疎な主成分分析

PCA

行列の特異値は実際には変動の主成分です

特異値分解 (SVD) と主成分分析 (PCA) はどちらも線形次元削減手法であり、主な情報を保持しながらデータの次元を削減できます。この 2 つは密接な関係があり、実際、PCA は SVD によって計算できます。

主成分分析の目標は、この基底セット上のデータの射影分散を最大化する直交基底セットを見つけることです。この塩基のセットは主成分と呼ばれます。PCA は通常、対称正定値で固有値分解が可能な共分散行列に適用されます。固有値分解後、大きな固有値を持つ対応する固有ベクトルが主成分となります。

ただし、SVD は任意の行列の分解であり、任意の行列を UΣV^T の形式に分解できます。SVD では、左の特異ベクトル U が元のデータの基底に相当し、右の特異ベクトル V が投影空間の基底に相当し、特異値 Σ がこれらの基底の座標を与えます。これは PCA に非常に似ています。PCA の主成分は SVD の右特異ベクトルに対応し、PCA のスコア (つまり、主成分上のデータの座標) は SVD の特異値に対応します。

これが、特異値が実際に変動の主成分である理由です。特異値は主成分の座標を与え、これらの座標はそれらの方向のデータの変動量を表します。大きな特異値は主な変化の方向に対応し、小さな特異値は副次的な変化の方向に対応します。したがって、大きな特異値と対応する特異ベクトルを保存することで、データの変動の主な方向を維持しながらデータの次元を削減できます。

例を挙げると、同じ数の主成分は空間内で互いに近接しています。

MNIST (Modified National Institute of Standards and Technology) の手書き数字データセットは、非常に人気のある画像認識データセットで、0 から 9 までの 10 個の数字のグレースケールの手書き数字の画像が含まれています。このデータセット内の各サンプルは 28x28 ピクセルの画像であり、784 次元のデータです。

このような高次元データを分析したりモデル化したりすると、大量の計算量やデータの疎さといった問題に直面します。したがって、データの次元を削減する必要があり、PCA (主成分分析) が一般的に使用される次元削減手法です。

MNIST データセットに対して PCA 処理を実行する場合、まず 784 次元空間内のすべてのサンプルの共分散行列が計算され、次に共分散行列の固有値分解が実行されます。共分散行列は対称であるため、主成分である直交固有ベクトルのセットを取得できます。

固有値は、元のデータにおける対応する主成分の重要性を表し、固有値が大きいほど、対応する主成分の重要性が高くなります。最初の k 個の最大固有値に対応する固有ベクトルを選択することで、新しい k 次元空間を取得し、元の 784 次元データをこの k 次元空間に射影して次元削減を完了できます。

PCA 処理された MNIST データでは、手書き数字の各画像は k 次元ベクトルとして表されます。この k 次元ベクトルは、k 個の主成分上の元の 784 次元画像の座標です。このようにして、データの次元が大幅に削減されると同時に、元のデータの重要な情報が可能な限り保存されます。

スパース PCA

PCA(主成分分析)およびSPCA(疎主成分分析)は、機械学習や統計解析における次元削減に用いられる手法で、高次元のデータを保持したまま低次元の空間に変換することを目的としています。または構造物。

PCA は、データ内の主成分、つまりデータの分散が最大になる方向を見つけることによって機能します。具体的には、第 1 主成分はデータの分散が最大となる方向、第 2 主成分は第 1 主成分に直交し分散が最大となる方向、というようになります。PCA は、データをこれらの主成分によって定義される空間に投影することにより、データの次元を削減します。

PCA は、主成分が線形に独立している、つまり直交している新しい座標系にデータを変換するため、データの冗長性や依存性を減らすことができます。このようにして、PCA は元のデータ内の冗長な情報を削除して、次元削減の目的を達成できます。

ただし、PCA の欠点の 1 つは、すべての主成分が元の特徴の線形結合であるため、PCA によって生成される結果の解釈が困難になることが多いことです。この問題を解決するために、Sparse PCA が提案されました。PCA とは異なり、Sparse PCA は、ほとんどの次元でゼロであり、少数の次元のみで非ゼロ値を持つ主成分ベクトルを見つけようとします。このように、Sparse PCA によって生成された主コンポーネントは、元の機能の小さなサブセットのみを含むため、理解しやすくなります。

一般に、PCA と Sparse PCA はどちらもデータの次元を削減し、依存関係を減らすために使用される手法であり、データの主成分を見つけて、主成分によって定義された空間にデータを射影することでこの目標を達成します。PCA は分散を最大化し、冗長性を削除したい状況に適していますが、Sparse PCA は主成分を解釈しやすい状況に適しています。

L1/L2 正則化

スパース PCA の実装には、通常、lasso (最小絶対収縮および選択演算子) と呼ばれる手法の使用が必要です。Lasso は線形回帰の正則化手法であり、特徴選択の目的を達成するために回帰係数ベクトルの一部の要素をゼロに圧縮できます。PCA の最適化問題になげなわ正則化を導入すると、Sparse PCA が得られます。

L1 および L2 正則化は、機械学習モデルの過剰適合を防ぐために使用される手法です。これは、正則化項 (つまり、モデル パラメーターの L1 または L2 ノルム) をモデルの目的関数に追加することによって行われます。L1 正則化により一部のパラメーターがゼロになり、特徴の選択が可能になります。L2 正則化により、モデルのパラメーターが小さくなる傾向があり、モデルが複雑になりすぎるのを防ぎます。

PCA と正則化は場合によっては併用できます。たとえば、最初に PCA を使用してデータの次元を削減し、次に削減された次元のデータに対して L1 または L2 正則化を使用してモデルをトレーニングできます。このアプローチは、高次元データを処理し、モデルの過剰適合を防ぐのに役立ちます。

非線形埋め込み

ここで ppt を抜粋するのは面倒なので、先生の回転が早すぎました。上記の PCA は、空間を変更する線形次元削減技術です。また、点の近傍 (データ ポイント間の確率類似性) を通じて実行される、t-SNE という非線形次元削減手法もあります。(原理は紹介しても言い過ぎではありません)

B ステーション学習リンク: Python と人工知能 - データの次元削減 - t-SNE

t-SNE (正式名 t-Distributed Stochastic Neighbor Embedding) は、主に高次元データの視覚化に使用される機械学習アルゴリズムです。特に、立方体を 2 次元または 3 次元に縮小し、平面または 3 次元空間での視覚化を可能にするために広く使用されています。

t-SNE の動作原理は次のように要約されます。

  1. 高次元空間内のデータ ポイント間の確率的類似性を計算します。このステップでは、t-SNE はガウス分布を使用して高次元空間内の 2 点の類似性を計算します。
  2. 低次元空間内のデータ ポイント間の類似性を計算します。t-SNE は、いわゆる t 分布 (実際にはスチューデントの t 分布の形式) を使用して、低次元空間での類似性を計算します。
  3. 最適化プロセス。t-SNE は、 KL ダイバージェンスと呼ばれるメトリックを使用して、高次元空間と低次元空間の類似性の差を最小限に抑えます。これは非線形最適化プロセスです。

t-SNE の重要な利点は、データ内のローカル構造を保存できることと、ある程度はグローバル構造も保存できることです。これは、同様のデータ ポイントが低次元空間に密接にクラスター化されることを意味します。

ただし、t-SNE にも限界があります。たとえば、計算の複雑さは比較的高く、大規模なデータセットの場合は長い計算時間が必要になる場合があります。さらに、t-SNE の結果は一部のハイパーパラメータ (困惑度や学習率など) の影響を受けるため、適切なパラメータ設定を見つけるには複数の試行が必要になる場合があります。

PCA と t-SNE はどちらもデータの次元を削減するための技術ですが、その方法と利点は異なります。

PCA は線形次元削減手法であり、その目的は、主成分と呼ばれるデータの主な変動方向を見つけることです。PCA は、データの最大分散を保存し、主成分によって定義された新しい低次元空間にデータを投影しようとします。したがって、PCA は一般に、データ内のグローバル構造をより適切に保存しますが、データ内のローカル構造を保存する場合にはそれほど効果的ではない可能性があります。

対照的に、t-SNE は、データ内の局所構造を保存することに主に焦点を当てた非線形次元削減手法です。t-SNE は、より近い点間の類似性を保持しようとし、確率的勾配降下法を使用して最適な低次元表現を見つけます。したがって、t-SNE は通常、データのローカル構造の保存には優れていますが、グローバル構造の保存にはそれほど優れていない可能性があります。

  • t-SNE の同じ手書き数字認識データセットでは、以前の PCA との効果の違いが依然として明らかであることがわかります。t-SNEはローカルにもっと注意を払います

  • バイオインフォマティクスにおける応用
    • 単一細胞 RNA シーケンス データの視覚化: t-SNE は、単一細胞 RNA シーケンス データの次元削減と視覚化に広く使用されています。t-SNE を使用することで、研究者は各細胞の遺伝子発現パターンを 2 次元または 3 次元空間にマッピングし、さらに異なる細胞集団を識別することができます。
    • タンパク質発現データ分析: t-SNE は、研究者がタンパク質発現パターンと官能基を特定するのに役立つタンパク質発現データの分析にも使用できます。
    • 疾患分類と薬物反応予測: t-SNE は、研究者が疾患の生物学的基礎を理解するのに役立ちます患者の遺伝子発現パターンを低次元空間にマッピングすることで、研究者はさまざまな種類の疾患をより適切に区別したり、薬物反応に対する患者の反応を予測したりできます。特定の薬。

以下のセクションについて話す時間はありませんが、補う時間はあります (主に関係するもの: ラプラシアン行列、スペクトル クラスタリング、アソシエーションによる罪悪感、ネットワーク拡散カーネル、ランダム ウォークなど)

  • ネットワークコミュニティとモジュール
    • 結社による罪
    • 最大クリーク、密度ベースのモジュール、スペクトル クラスタリング
  • ネットワーク拡散カーネルとデコンボリューション
    • ネットワーク拡散カーネル
    • ネットワーク装飾ボーレーション

オンラインコミュニティとモジュール

ネットワーク コミュニティとモジュールは、ネットワークの他のノードよりもグループ内の他のノードと密接に接続されているネットワーク内のノードのグループを指します。これらの構造を特定することは、ネットワークによって表されるシステムの基礎となるメカニズムを理解するのに役立つため、ネットワーク分析の重要なタスクです。

たとえば、タンパク質間相互作用ネットワークでは、密に接続されたコミュニティがタンパク質複合体または機能単位を表す可能性があります。同様に、ソーシャル ネットワークでは、コミュニティは友人や同じような興味を持つ人々のグループを表す場合があります。

結社による

「罪悪感の関連性」は生物学で一般的に使用される概念であり、互いに関連または相互作用する遺伝子 (またはタンパク質) が同じ生物学的プロセスに関与する可能性があることを意味します。したがって、機能が未知の遺伝子が機能が既知の遺伝子と頻繁に関連付けられている場合、未知の遺伝子もその機能に関与している可能性があると推測できます。

最大クリーク、密度ベースのモジュール、スペクトル クラスタリング

これらはすべて、ネットワーク内のコミュニティまたはモジュールを識別するために使用される方法です。

  • ネットワーク内のクリークは、ノードのセットのサブセットであり、そのうちの任意の 2 つが互いに接続されています。最大のクリークは、ネットワーク内で最大のクリークです。
  • 密度ベースのモジュールとは、内部接続密度 (潜在的な接続に対する実際の接続の比率) が高いサブネットワークを指します。
  • スペクトル クラスタリングは、ネットワークのラプラシアン行列の固有ベクトルを使用してノードをクラスタリングする手法です。

ネットワーク拡散カーネルとデコンボリューション

ネットワーク拡散カーネルは、ネットワーク内の 2 つのノード間のランダム ウォークの確率を表します。これらはネットワークの接続構造をキャプチャでき、ノード分類やリンク予測などのタスクに使用できます。

ネットワーク デコンボリューションは、直接接続を強調表示するために、ネットワーク内の間接的な関連付け (つまり、2 つのノードが両方とも 3 番目のノードに接続されているという事実による 2 つのノード間の関連付け) を削除する方法です。

おすすめ

転載: blog.csdn.net/weixin_57345774/article/details/130792722