【阅读笔记】ナレッジベースの完了のためのニューラルテンソルネットワークと推論

免責事項:著者は限られている、ブログ必然的に欠陥がたくさんあっても、重大なミス、私はあなたが修正したいと考えています。最大の目標を書くことは、学習関心と広がりを払っていない交換することもありますが。行く、とあなたがお互いを奨励するための長い道のり。https://blog.csdn.net/yexiaohhjk/article/details/86374735

序文

論文アドレスの
ポスター

抽象

著者は推論は、ニューラルネットワークの2つのエンティティ間の関係(テンソルニューラルネットワーク)に適用され記載されている。以前の研究と比較して、この論文では、いずれかの別個のエンティティとして表現され又は最小単位は、単一のエンティティベクトルと紙であります実験は、エンティティは次のように表される実験は意味するとき、その単語ベクトルの効果が増加することを示しています。最後に、これらの言葉は、評価結果のためのパラメータの初期値を学習した結果として、教師なし学習コーパスの多数によってベクトルは2つのエンティティにおける知識ベースが大幅に改善関連しているかどうかを予測するときことを証明します。短い論文ではモデルの結果は、86.2パーセントと90.0%の裁判官のWordNetの隠された関係とFreebaseの精度は以前のモデルよりも優れている、と。

紹介します

このようなWordNetは、YAGO、Googleのナレッジグラフや他の類似の事業体と知識ベースとしてユーザに提供するために、リソース...情報検索や知識構造の富を提供していますが、まだ不完全と推理の問題との関係についての知識の不足に直面しています。

...(省略重要なプレゼンテーション)

著者は、モデルが正確に本当の既存のナレッジベースの追加情報を予測することができます。主にベクターへのエンティティの知識ベースでの性能によってモデル、ベクターの形態でも定義された新しいニューラルネットワークテンソルを通じて情報や他のエンティティとの関係、および各エンティティの関係を示すことができる一方、正確に表現するためのパラメータ。

要約すると、本論文最初の寄与は、いくつかの以前に組み合わせた新しいニューラルネットワークニューラルテンソルネットワーク(NTN)は、情報のより堅牢な層にニューラルネットワークモデルと、標準的なニューラルネットワークモデルよりも強い提案提案することです間のメソッドの関係。

第二の貢献は前に、実体の知識ベースを表示するための新しい方法を提供することで同様の8910、彼らは単に変数の物理的なパフォーマンスに置くが、同じ部分を持つエンティティの名前が==共有することができない場合統計的強度==。

第三の寄与は、テキストベクトルワード埋め込みフォームを組み込むために標識されていない訓練の多数であります

関連作業

要約するのが面倒、などの直接読み取り論文!

関係オーバー推論のためのニューラルモデル

ニューラルネットワークアーキテクチャ

双線形モデル(双線形モデル)を使用してネットワークの構造:

グラム E 1 R E 2 = R T F E 1 T W R [ 1 K ] e 2 + V R [ e 1 e 2 ] + b R )               ( 1 ) G(E_1、R、E_2)= U ^ T_Rf(E_1 ^ TW_R ^ {[1:K]} E_2 + V_R \ {bmatrix} E_1 \\ E_2 \\ \端{bmatrix} + B_Rを始める)~~~~ ~~~~~~~~~(1)
ここで、Gは、関係Rのスコアを示す、ネットワークの出力です。E1、E2の特徴ベクトルの両方のエンティティは、寸法dは、初期値はランダムであってもよいし、継続的にトレーニング中に調整する必要があるサードパーティのツールのトレーニングによって、ベクターであってもよいです。f= tanh隠れ層の活性化関数。
重みの第一層がVであるオフセットBは、重みの第二の層は、右括弧は、第1Uエントリテンソルです。

次のように示され与えられた紙に対応します:
画像

損失関数を考えた###:
このネットワークではランダム置き換えるエンティティE1またはE2が他のエンティティと新しい負を構築し、それぞれの与えられた三元関係(e_i、R_k、e_j)のために、知識ベースの推論を学ぶことができますサンプルは、陰性サンプルは、次のようにこのように、フォームの限界関数(MAX-マージン目的関数)を最大0に近いスコアを使用して1つの陽性試料、陰性サンプルを構造は陽性サンプルよりも小さくなる傾向にあるため得点、およびスコアに近いですそれは示しています。
J ( Ω ) = i = 1 N c = 1 C m a x ( 0 , 1 g ( T ( i ) ) + g ( T c ( i ) ) ) + λ Ω 2 2               ( 2 ) J(\オメガ)= \和^ N_ {i = 1} \和^ C_ {C = 1} MAX(0,1-G(T ^ {(I)})+ G(T_C ^ {(I)} ))+ \ラムダ|| \ ||オメガ^ 2_2 ~~~~~~~~~~~~~(2)
最後に、我々は表現の最適化に向けて損失関数を最小化するために必要N各陽性サンプルのためのすべての陽性サンプルの数は、ランダムに構成されているC負例サンプル。Ωは、すべてのパラメータの集合ですu,W,V,b,E最初の重量1,3,4-一般BPネットワーク重みパラメータであり、最終的な特徴ベクトルはエンティティである、第二のテンソルで、入力されます。T ^ {(I)} _i番目の陰性サンプルの実施形態に対応します。

次いで、勾配降下を使用して、紙またはL-BFGSは損失関数パラメータを最小のでを解決し、パラメータの訓練されたセットは、関係に相当します。

単語ベクトルを再検討

著者は、モデルの精度を向上させるために、ランダムな初期化ベクトルの実体上の2つの方法について説明します。

  • 複数の単語(単語ベクトル)を構成する初期化ベクトルの平均により構成されるエンティティした単語の合成ベクトルの複数

    著者らはまた、ベクターエンティティにしようとRNNを学ぶの複合語を構成するが、何らかの理由で実際の効果は、直接の平均単語ベクトルとして良い、良いではないではありません。

  • 最初の単語ベクトル(WV-INIT)のエンティティを初期化するために教師なし学習による事前学習ベクトルエンティティ

    参考単語表現:半教師あり学習のための簡単で一般的な方法论文

実験

本論文では、WordNetのとFreebaseの2つのサンプルは、新しい関係を予測することが設定されますかかります。

異なるエンティティ38696との関係の11個の異なる種類のトリプルのWordNetに訓練する関係(E_1、R、E_2)を用い112581のトリプル。異なる作者の前作では、このような関係は、などのWordNet、中三極関係で繰り返される同じエンティティとしての関係のいくつかを、フィルタリングします

トライアド関係三つ子の分類との関係を分析します

この論文は、閾値を設定することにより、試料交換正エンティティによって負のサンプルを生成します T R T_R 関係が存在するかどうかを判断するには。
g ( e 1 , R , e 2 ) > = T R G(E_1、R、E_2)> = T_R

5種類のモデルの精度のテキストであっ言及されている場合、テストトリプル関係の仕事を比較すると、本論文ではNTNモデルは他のモデルよりも有意に優れてい提示します。

同時に作成者に関係の異なる精度は同じではない、示されるようにWordNetのとのFreebase、結論に同じデータセット上の異なる関係の精度を比較しました。


著者はまた、異なる3つの異なるエンティティの初期化ベクトルの方法を比較し、エンティティの初期化ベクトル途中の精度に大きな影響を持っていることがわかりました。

  • EV:(エンティティベクトル):全体としてエンティティが単一のベクターを表します
  • WV(ワードベクトル):ワードランダム初期化ベクトルを求め、平均値ベクトルワードは、エンティティベクトルを表します
  • WV-INIT:ワードベクトルWVと比較した場合、初期化は教師なし学習によって得られます

推論の例

上記の精度を決定するために、三元関係タスクは、現在のラウンドのテキストは、より高い正解率が存在する場合、三重の関係を予測するためのモデルであることが判明しました。

TNT主観的な印象の二つの実験と推論のこの作品には:

  • 降順にエンティティと関係して、エンティティ・リレーションシップ・スコア値の他のすべてのエンティティを選択する、次の表

この表から見ると、私たちは、大半が関係が信頼できると結論付けているの、主観参照してください。

  • 次のように知識ベースを通じ例えば、関係の推論に未知のエンティティ間の三元関係を訓練してきました。

黒線既存の関係、赤不明推論関係、およびベクトルワード(ワードベクトル)ベクトル実体(エンティティベクトル)を表し、同じ単語からなる潜在的意味関係エンティティによって示されるようにも保存されています。

要約:

本論文の主革新関係を予測する知識ベース内のエンティティの以前の使用に比べて、著者はバイリニア三層ニューラルネットワーク(NTN)モデル、及び採用のための初期化ベクトル処理エンティティの損失関数を導入することです平均ワードベクトルモデルが大幅にシステムの精度を向上させる、訓練される監視なし。

質問を読んだ後:

  • このニューラルネットワークの訓練を使用した場合三項関係がしきい値推論を設定しました T R T_R それはどのように決定されますか?

おすすめ

転載: blog.csdn.net/yexiaohhjk/article/details/86374735