論文の味 | より速く、より安価な推論のための二重蒸留 KGE

d7f499230ebbb27afa08fdc70b486e7b.png

ノート整理:張金瑞、天津大学修士、研究方向はナレッジグラフ

リンク: https://dl.acm.org/doi/10.1145/3488560.3498437

モチベーション

ナレッジ グラフは、セマンティック検索、情報抽出、質問応答など、さまざまな AI タスクに役立つことが証明されています。しかし、ナレッジ グラフが完全には程遠いことはよく知られており、そのためナレッジ グラフの完全性に関する多くの研究が推進されてきました。より一般的で広く使用されている方法の 1 つは、TransE、ComplEx、RotatE などの KGE Knowledge Graph Embedding です。一方、パフォーマンスを向上させるには、通常、より高い次元で KGE をトレーニングすることが推奨されます。ただし、図 1 に示すように、通常、モデル サイズ (パラメーターの数) と推論時間のコストは、埋め込み次元の増加とともに急速に増加します。埋め込み次元が増加するにつれて、パフォーマンスの向上はますます小さくなり、モデル サイズと推論時間は減少します。推論コスト ただし、依然としてほぼ直線的な増加率を維持しています。さらに、高次元の KGE は、現実世界の多くのシナリオ、特にコンピューティング リソースや推論時間が限られているアプリケーションでは非現実的であり、低次元の KGE が不可欠です。ただし、小さいサイズの KGE を直接トレーニングすると、通常はパフォーマンスが低下するため、さらに新しい研究課題を提案します。「事前トレーニングされた高次元 KGE から低次元 KGE を取得し、より高速かつ低コストで良好なパフォーマンスを達成することは可能か」というものです。コスト?効果。

ハイライト

DualDE の主な特長は次のとおりです。

1. 高次元 KGE から低次元 KGE を抽出し、良好なパフォーマンスを達成するための新しいフレームワークが提案されています。

2. 教師と生徒の間の二重の影響を蒸留プロセスで考慮し、異なるトリプレットに異なるソフトラベルとハードラベルの重みを適応的に割り当てるソフトラベル評価メカニズムと、双方向の段階的蒸留方法を提案します。教師に対する生徒の受け入れを改善するため。

コンセプトとモデル

モデルの全体的なフレームワークを図 1 に示します。

1b460931c85a5483e9d4ec1e3aec77f9.png

図 1 DualDE 全体のアーキテクチャ図

  • 蒸留目標

事前学習済みの高次元 KGE モデル (教師) を準備し、低次元 KGE モデル (生徒) をランダムに初期化します。DualDE では、スチューデント モデルをトレーニングするためのハード ラベル損失は、KGE メソッドの元の損失であり、通常はバイナリ クロス エントロピー損失です。さらに、ターゲットトリプルの全体的な信頼性と埋め込み構造の観点から、生徒に教師を真似させました。

まず、トリプレット (h、r、t) について、教師と生徒モデルはスコアリング関数を使用してそれにスコアを割り当てることができます。 1) トリプレットに対する教師の真似をする生徒の全体的な信頼性は、次の 2 を当てはめることで取得できます。モデル 出力されたトリプレットスコアが完成しました; 2) 両方のモデルにトリプレットの先頭エンティティの埋め込みと末尾エンティティの埋め込みの長さの比率と角度をフィッティングすることで、教師を模倣する生徒の埋め込み構造を反映できます。最後に、教師と生徒の間のトリプレット スコアの差と埋め込み構造の差の合計をソフト ラベル最適化目標とします。

  • ソフトラベル評価の仕組み

ソフトラベル評価メカニズムは、教師が提供するソフトラベルの品質を評価し、異なるソフトラベルとハードラベルの重みを異なるトリプレットに適応的に割り当てることができるため、高品質のソフトラベルのプラスの効果を維持し、マイナスの影響を回避できます。低品質のソフトラベルの影響 マイナスの影響。

理論的には、KGE モデルは正のトリプルには高いスコアを与え、負のトリプルには低いスコアを与えますが、KGE モデルが把握するのが難しい一部のトリプルについてはその逆が当てはまります。具体的には、教師がネガティブ (ポジティブ) の 3 つ組に高い (低い) スコアを与えた場合、つまり教師がそれをポジティブ (ネガティブ) の 3 つ組と判断する傾向にある場合、ソフト ラベルは信頼できず、生徒を誤解させる可能性さえあります。このトリプレットでは、ソフトラベルの比重を弱め、学生がハードラベルからより多くを学ぶように奨励する必要があります。

  • 二段蒸留

前のセクションでは、学生が KGE 教師から知識を抽出できるようにする方法について説明しました。学生はハード ラベルでトレーニングされ、ソフト ラベルは固定教師によって生成されます。より良い生徒を獲得するために、教師を解凍し、蒸留の第 2 段階で生徒から学習させることで、生徒から教師への受け入れを改善する 2 段階の蒸留方法を提案します。

最初のステージ。最初の段階は、教師が生徒を訓練しながら一定の姿勢を保つという従来の知識蒸留方法に似ています。第2段。第 2 段階で教師を調整する際、生徒が十分に習得できていないトリプルについては、生徒の出力が教師に及ぼす悪影響を軽減し、教師がハードラベルからより多くのことを学べるようにしたいと考えています。先生の高精度セックスを維持します。したがって、教師の調整にもソフトラベル評価メカニズムを適用します。教師のハードラベルとソフトラベルの重みは、生徒が各トリプレットに与えたスコアを評価することによって適応的に割り当てられます。このフェーズでは、教師と生徒が一緒に最適化します。

実験

私たちは、典型的な KGE ベンチマークで DualDE を評価し、次の質問を調査するために実験を実施します。

(1) DualDE は、高次元の教師から優れた低次元の生徒を抽出し、最初から訓練された同じ次元のモデルよりも優れたパフォーマンスを発揮できるでしょうか? 同じ次元のモデルを蒸留せずに、または他の KD メソッドを使用してトレーニングしましたか? 蒸留せずに、または他の KD 法を使用しますか?

(2) 蒸留後、推論時間はどの程度改善されましたか?

(3) ソフトラベルの評価メカニズムと二段蒸留法は、私たちの提案にどの程度貢献していますか?

DualDE は、一般的に使用されているデータセット WN18RR および FB15K-237 でテストされており、DualDE は現在のいくつかの最先端の蒸留方法と比較して優れたパフォーマンスを示しています。実験結果は次のとおりです。

f0e8baee2f07e1324ea57ff701115353.png

表1 WN18RRのリンク予測結果

c522ca4199cf69315448509f53261b92.png

表2 FB15k-237のリンク予測結果

Q1: 私たちの方法は優秀な生徒を抽出することに成功していますか?

まず、表 1 の WN18RR の結果を分析しました。表 1 は、埋め込み次元が減少すると、「DS なし」モデルのパフォーマンスが大幅に低下することを示しています。シンプルの場合、512 次元の教師と比較して、32 次元の「DS なし」モデルは、MRR、Hit@3、および Hit@1 で 64.8%、66.1%、および 47.8% の結果しか達成しません。一方、ComplexEx では、MRR は 0.433 から 0.268 (38.1%) に減少しました。これは、低次元の KGE を直接トレーニングすると悪い結果が生じることを示しています。

「no-DS」と比較して、DualDE は 32 次元スチューデントのパフォーマンスを大幅に向上させます。WN18RR での TransE、SimplE、ComplEx、および RotatE の MRR は、0.164 から 0.21 (28.0%)、0.273 から 0.384 (40.7%)、0.268 から 0.397 (48.1%)、0.421 から 0.468 (11.2%) に増加しました。「DS なし」に基づいて、32 次元の生徒は平均 32.0%、23.0%、33.9%、46.7% の向上を達成し、最終的に教師のレベルの 92.9%、94.8%、93.1%、102.3% に達しました。 MRR、Hit@10、Hit@2、Hit@3。表 2 の FB15k-237 についても同様の結果が観察されます。実験結果は、DualDE が教師のパフォーマンスのほとんど (90% 以上) を維持しながら 16 倍 (512:32) の埋め込み圧縮率を達成できることを示しています。これは、多少のパフォーマンスの損失はあるものの、低次元モデルを直接トレーニングするよりも優れています。

Q2: 推論をスピードアップするために生徒を訓練します。どの程度訓練しますか?

推論速度をテストするために、93003 個の実験サンプル WN18RR と 310116 個の FB15k237 サンプルに対してリンク予測実験を実行します。推論速度は予測モード(先頭予測か末尾予測)に影響されないため、末尾予測時間は一律に比較されます。推論は単一の Tesla-V100 GPU で実行され、テスト バッチ サイズはエンティティの総数 (WN18RR の場合は 40943、FB15k-237 の場合は 14541) に設定されます。偶然の要因を避けるために、実験を 3 回繰り返し、平均時間を報告しました。表 3 は、推論時間コストの結果を秒単位で示しています。

9dd144fc7ccf810c07aad2784273a6f7.png

表3 推論時間(秒)

結果は、訓練を受けた生徒が推論を大幅にスピードアップすることを示しており、ComplEx と RotatE を例にとると、WN18RR での 512 次元の教師の推論時間は、32 次元の生徒の推論時間の 7.03 倍と 7.81 倍でした。教師と比較した場合、2 つのデータセットの TransE、SimplE、ComplEx、および RotatE での 64 次元の生徒の平均速度は 2.25 倍、2.22 倍、3.66 倍、3.98 倍であり、32 次元の生徒の平均速度は 3.11 倍です。 、3.35倍、5.90倍、5.76倍。

Q3: ソフトラベルの評価機構や二段蒸留法は貢献していますか?寄付金はいくらですか?

当社では、DualDE の 2 つの戦略 (ソフトラベル評価メカニズムと 2 段階蒸留法) の影響を評価するために、一連のアブレーション研究を実施しています。

まず、ソフトラベルの評価メカニズムの影響を検討するために、私たちの方法とソフトラベルの評価メカニズムを削除した後の方法を比較します。次に、二次蒸留法の効果を検討するために、DS を 1 段目 (-s1) を除去したモデルと 2 段目 (s2) を除去したモデルと比較します。表 4 は、WN18RR データセットの MRR と Hit@10 の結果をまとめたものです。

3a5fee4ed5fdd47762359b4278b6025b.png

表 4: WN18RR アブレーション研究。D は生徒の側面を指し、M は方法を指します。

SEM を削除した後 (-SEM を参照)、すべての生徒は DS と比較して成績の低下を示しました。4 つの KGE のうち、MRR と Hit@10 は、64 次元の生徒では平均 3.7% と 2.8% 減少し、32 次元の生徒では平均 7.9% と 5.4% 減少しました。実験結果は、ソフト ラベル評価モジュールが各トリプレットのソフト ラベルの品質を評価し、異なるソフト ラベルとハード ラベルの重みを異なるトリプレットに割り当てることを示しています。これは、スチューデント モデルがより難しいトリプレットを習得してパフォーマンスを向上させるのに実際に役立ちます。

S1 を削除し、S2 のみを保持します (-S1 を参照)。全体的なパフォーマンスは DS よりも低くなります。おそらく、S2では教師も生徒もお互いに慣れるためだと思われます。ランダムに初期化された生徒の場合、生徒はほとんど役に立たない情報を教師に渡しますが、これは誤解を招く可能性があり、教師をクラッシュさせる可能性があります。また、「-S1」の性能は非常に不安定です。「-S1」設定では、64 次元の生徒の成績は DS よりもわずかに悪いだけでしたが、32 次元の生徒の成績は大幅に悪かったです。SimplE 32 次元の生徒の場合、「-S1」の MRR と Hit@10 は DS と比較して 21.4% および 10.6% 減少しました。これは、最も基本的な蒸留方法である BKD を使用するよりもさらに悪く、DualDE には最初の段階が必要であることがわかります。

S2 を削除して S1 のみを残すと (-S2 を参照)、ほぼすべてのメトリクスでパフォーマンスが低下します。DS と比較して、64 次元と 32 次元の s2 の生徒は平均で 2.4% と 3.8% 減少しました。これは、第 2 段階では実際に教師と生徒が互いに適応し、結果をさらに向上させることができることを示しています。

これらの結果は、最初に生徒 S1 を特定のパフォーマンスに収束するようにトレーニングし、次に S2 で教師と生徒を共同で最適化する 2 段階の蒸留の有効性を裏付けています。

要約する

ナレッジ グラフの埋め込みパラメータが多すぎると、実際のアプリケーション シナリオに膨大なストレージとコンピューティングの課題が生じます。この研究では、KGE を低次元空間に圧縮し、教師の知識を生徒に効果的に伝えるための新しい KGE 蒸留法 DualDE を提案します。教師と生徒の間の二重の影響を考慮して、我々は DualDE が 2 つの蒸留戦略を使用することを提案します: 異なるソフトラベルとハードラベルの重みを異なるトリプレットに適応的に割り当てるためのソフトラベル評価メカニズム、および生徒と教師が互いに学び合うよう奨励することで、生徒と教師の受容性を向上させます。いくつかの KGE およびベンチマーク データセットでリンク予測タスクを使用して DualDE を評価しました。実験結果は、この方法が埋め込みパラメータを効果的に削減し、パフォーマンスをほとんどまたはまったく低下させることなく、高次元 KGE の推論速度を大幅に向上できることを示しています。


OpenKG

OpenKG(中国語オープンナレッジグラフ)は、中国語を核としたナレッジグラフデータのオープン性、相互接続、クラウドソーシングを促進し、ナレッジグラフアルゴリズム、ツール、プラットフォームのオープンソースとオープンソースを促進することを目的としています。

1e5b06d6c95bf0416ba6c67d9cd95eae.png

クリックして原文を読み、OpenKG Web サイトに入ります。

おすすめ

転載: blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/131136669