論文の共有|ジャンプするナレッジ ネットワーク

今週は、ICML2018 でのグラフ学習に関する記事「跳躍知識ネットワークによるグラフの表現学習」を紹介します。

このホワイト ペーパーで検討したい問題の 1 つは、次のとおりです。グラフ畳み込みニューラル ネットワークの計算方法は、さまざまな構造のグラフに適応できますが、その固定された階層構造と、集約された隣接ノードの情報伝播方法により、異なる近隣構造の大きな偏差。この問題点を指摘する一方で、著者は独自のソリューションであるジャンピング知識 (JK) ネットワークも提案し、上の図の畳み込みモデルと組み合わせた JK メカニズムは、さまざまな実験で最先端の効果を達成しています。

 

質問

記事「グラフ畳み込みネットワークによる半教師付き分類」の著者は、GCN の最大の効果はモデルが 2 層の深さだけの場合であり、層の数が増えると効果が減少することを指摘しました。理由は何ですか?この記事の著者は、この問題を説明するために次の図を描きました。

 

 

GCN の更新方法は、1 次隣接ノードからの情報を毎回統合することであることがわかっているため、k 回更新した後、k ホップ情報を統合できます。しかし、グラフでは、ノードが異なれば k-hop 構造も異なります. 極端な状況を見ると、上記の図 a、b では、正方形のノードを中心とする 4-hop 構造がまったく異なります。

 

a のノードは密なコアにあるため、4 回更新した後、基本的にグラフ全体のノード情報を統合できます。これにより、過度に滑らかになるという問題が発生します。GCN では、追加の畳み込み演算があるたびに、ノードの表現 どちらもよりグローバルですが、表現はより滑らかです。これにより、多くのノード、特に密集したコア領域のノードが最終的に区別できない表現になるため、そのようなノードにあまりにも多くの GCN レイヤーを使用することはできません;

 

bのノードは有界部分にある.4回更新しても融合しているノードが少なく,情報量が少ないという問題がある.このようなノードについては,GCNの層数を増やしたい.学習するためのより十分な情報を取得できるようにします。このように、ノードの近隣構造が異なるため、GCN がモデル化するときにモデルのレイヤー数をどのように選択すればよいでしょうか。

 

解決

最終的な分析では、この問題の本質は、一部のノードがより多くのローカル情報を必要とし、一部のノードがより多くのグローバル情報を必要とすることです。この記事の著者は、レイヤー集約を使用して、ノードの最終的な表現を、ローカルまたはグローバルのさまざまなレイヤーの情報に適応的に統合できるようにします。モデルがそれ自体で学習できるようにします。この方法を次の図に示します。

 

基礎となる情報はよりローカルであり, 高レベルの情報はよりグローバルです. JK ネットワークはすべてのレイヤーで融合操作を実行して最終表現を取得します. 具体的な融合方法には, 連結, 最大プーリング, LSTM-attention が含まれ ます :

 

連結: 各レイヤーの式をつなぎ合わせて、分類のために線形レイヤーに送信します。

 

最大プーリング:要素ごとの最大プーリング操作を実行するために、各レイヤーの式を一緒に収集します. このメソッドは、新しいパラメーターを導入しません;

 

LSTM-attention:これは最も複雑な集計方法で、各レイヤーの注意スコアを学習します

、同時に

、このスコアは各レイヤーの重要な係数を表します。注意スコアの学習は、各レイヤーの式を双方向 LSTM に順番に送信することであり、各レイヤーが前方式を持つようにします。

と後方表現

、次にこれら 2 つの式をつなぎ合わせて線形レイヤーに送信し、スコアに適合させます。次に、このスコアに対してソフトマックス正規化を実行して、アテンション スコアを取得します。

、そして最後に、重要な係数に従って各レイヤーの式に重み付き合計を実行して、最終的な式を取得します。

 

この仕組みを追加すると、GCN は 2 つの集約方法を同時に持つことがわかります.水平隣接集約は構造情報を学習するためのものであり、垂直層集約はモデルが構造情報を選択的に学習できるようにするためのものです. これにより、GCN モデルが非常に深い数値を設定できないという問題がなくなります。

 

 

実験

他の論文と同様に、この記事でも次のデータセットで実験を行いました。

 

 

 

 

そのうち、Citeseer と Cora は論文が引用する 2 つのデータセットで、bag of words と論文の引用関係によって論文が分類されます。Reddit は、単語ベクトルと投稿者の関係に基づいて投稿を分類する Web 投稿のデータセットです。PPI は、タンパク質の機能を分類するタンパク質分子相互作用タンパク質間相互作用ネットワークです。

 

 

 

上の図は、Citeseer と Cora での実験結果です。2 ~ 3 層構造しか使用できない従来の GCN と比較して、この論文の方法は GCN を 6 層に深めることができ、効果も向上します。もちろん、LSTM の集計方法は効果的ではありません。これは、2 つのデータセットが比較的小さく、複雑な集計方法がオーバーフィットしやすいためです。

 

Reddit でも宣伝されています。

 

 

PPI データに対する最終的な影響は、PPI データが大量であるため、LSTM の複雑な集計方法が最も効果的です。

結論は

 

GCNの問題に関しては、実際、実験での私たち自身の実践は、各レイヤーに補助分類子を追加するメカニズムを解決することであり、この論文で使用されているレイヤー集約の方法は、より洗練されたソリューションと見なすことができ、価値があります私たちのフォローアップ実験検証の。

論文リンク:

http://proceedings.mlr.press/v80/xu18c/xu18c.pdf proceedings.mlr.press

詳細については、WeChat パブリック アカウント geetest_jy をフォローしてください。

おすすめ

転載: blog.csdn.net/geek_wh2016/article/details/81297106