文学レビューサポート技術情報のマッピング(章知識表現の学習)

章知識表現学習

1.タスク定義、目的、意義

  知識表現は、問題を学習知識表現知識の習得と応用の基礎であるため、アプリケーションのビルドと知識ベースの全体のプロセスを実行するための重要な課題です。人々は、通常、知識ネットワーク内の知識の形で編成、各ノードは、ネットワーク・エンティティ(地名、組織名、概念、等)を表し、エンティティ間の関係もそれぞれの側を表します。しかし、多くの課題に直面している問題の表現形式の知識ベースのネットワーク、次の二つの側面を含め、:

  (1)効率を計算します。ネットワークベースの知識表現形式、各エンティティは、異なるノードで表されています。知識ベースを使用してエンティティまたは推論の間の意味関係を計算するとき、人々はしばしば達成するために、特殊な描画アルゴリズムを設計する必要があり、貧しい移植性の問題があります。さらに重要なことは、知識ベースが一定のサイズに達したグラフ高い複雑さ、乏しいスケーラビリティ、に基づいて計算アルゴリズムは、より良好なリアルタイムシステムのニーズを満たすことは困難です。

  (2)データスパースの問題。そして、同様の大規模データの他のタイプ、大規模な分散型知識ベースはまた、ロングテール、エンティティと関係の一部で長い尾を遵守し、深刻なデータスパースネスの問題に直面しています。例えば、ロングテールの珍しい実体部分について、少しだけ知識理由やそのパスに、またはこれらのエンティティ間の意味的推論の関係を計算し、正確な割合は非常に低いことが多いです。

  近年では、深い学習と[Bengio、ら、2009 ] に代わって、研究である[ Bengio、ら、2013]技術大気の上昇、音声認識、画像解析と自然言語処理で増加し注目を集めました。学習は意味情報を密低次元の実数値ベクトルとして表現されて勉強することを目指しています。この低次元ベクトル空間において、より近い距離二つのオブジェクト、より高いセマンティック類似度。知識表現の学習、それはエンティティと関係のための知識ベースを学ぶ表現されています。エンティティおよび関係表現の分散知識表現学習以下の主な利点を有します:

(1)有意に計算効率を向上させます。トリプル表現の知識がワンホット表現に基づいて実際にあります。以前に分析したように、この方法で表現、必要性は、エンティティと推論、高い複雑さ、貧弱なスケーラビリティとの間に図の意味関係の特別なアルゴリズムを設計します。分散表し得学習し、それを大幅に計算効率を改善する、効率的なセマンティック類似度算出動作を実現することが可能です。

(2)有効データのスパースを軽減します。各オブジェクトを効果的に主に二つの側面に反映されているデータスパースの問題を緩和するように、密ベクトルに対応するようにためには、統一された低次元空間に射影オブジェクトを学習します。一の態様では、各オブジェクトのベクトル値と密である、すべてのオブジェクト間の意味的類似度を測定することが可能です。一方、オブジェクト・スペースの数は、意味情報がオブジェクト低いの意味表現の精度を改善するために、オブジェクトの高周波数の低周波意味表現を標的化するために使用することができ、統一されたプロセスに投影されます。

(3)異種情報統合を実現。異質性は全体として異なるソースからの情報を統合する必要があり、それが効果的に適用することができます例えば、多くの人々は、知識ベース、建築基準を構築し、情報源は、これらの異なる知識ベースを持っている、有名な世界の知識ベースほどにDBpediaの、YAGO、Freebaseのとがあります。異なる知識ベース内のエンティティとの関係の異なる名前の数が多いです。どのようにアプリケーションリポジトリへの大きな意義のマルチリポジトリの有機的統合を実現しています。同じ意味空間に投影異なるソースからのオブジェクトの合理的な設計を表すモデルを学習することによって、私たちは、表現の統一された空間、マルチナレッジベースの情報融合を確立することができるようになります。また、我々は情報検索や自然言語処理における知識を適用すると、セマンティッククエリは、多くの場合、単語、文章、ドキュメント、および知識ベースのエンティティ間の複雑な関連性を計算する必要があります。これらのオブジェクトの不均一、通常の厄介な問題に起因します。このような理由や知識表現の学習のためにも、異種オブジェクト・コンピューティング間の意味的関連性を達成することは容易で、統一された表現空間を提供することができます。

  要約すると、知識表現の学習のために大幅に、計算効率を向上させる効果的にまばらなデータを軽減するため、異種情報の統合を達成するため、知識ベース、大きな意義の推論やアプリケーション、広く注目に値する、綿密な調査を構築することができます。

2.主要な科学的な問題と研究

  学習は、学習知識表現知識表現エンティティおよび関係を向いています。低次元ベクトル空間へエンティティ又は関係によって投影された、我々は、エンティティおよび関係を効率的エンティティと関係の間の複雑な意味論的関連性を計算することができ示す意味情報を得ることができます。これは、知識ベース、推論やアプリケーションが重要な構築することです。現時点では、知識マップを補完し、関係抽出で他のタスクには、顕著な実績をあげて。しかし、知識表現の学習は、まだ多くの課題に直面しています。

  2.1複雑な関係をモデル化

  既存の知識表現の学習方法が効果的にナレッジグラフの間の複雑な関係に対処することはできません。次のように複雑な関係がここで定義されています。知識は関係が1-1、1-N、N-1、及びNN 4つのタイプに分けることができるエンティティの数との関係に応じて端部を接続します。例えば、関係の種類を指すN-1、複数のヘッドに対応する尾部の種類との関係均等エンティティのエンティティ、すなわち、我々1-N、N-1、及びNNが複雑な関係と呼ばれます。研究では、複雑な関係を扱うときに知識獲得アルゴリズムの性能の違いのすべての種類は、パフォーマンスが大幅に、大幅な削減の4種類との関係を扱うときことがわかりました。複雑な関係を表現する方法を学ぶのモデリングは困難を学ぶ知識表現になります。

   以上の2.2元情報融合

  知識は、マルチソース情報の融合に直面する方法を学ぶためのもう一つの重要な課題です。パターンが表現される学習トリプレット構造情報の知識のみを使用してモデルを学習知識表現を既存の有効例えば、利用されていない他の情報に関連する多くの知識があります。そのような固体のような他の情報(1)知識ベースは、とカテゴリ情報との関係を示す情報、例えば、インターネットテキストとして外(2)知識ベースの質量情報は、知識ベースを持つエンティティと関係に関する情報が豊富に含まれています。どのようにデータスパースネスの問題を改善するために非常に重要で、知識表現の学習を達成するためにマルチソース異種情報のこれらの完全な統合を行い、知識表現区別する能力を向上させます。

  2.3関係経路モデル化

  知識マップでは、多段階のパスとの間の関係はまた、エンティティ間の意味的な関係を反映することができますパス制約ランダムウォーク[ラオス、提案されたラオス、ら。、2010]、パスはアルゴリズム[ラオス、ら2010]ランキング得るために、それらの関係を予測する、2つのエンティティ間の関係のパス情報を用いて、アルゴリズムを有意な効果が、関係パスは、豊富な情報を含んでいます。知識表現の限界を打破するために知識表現パス情報との関係を十分に考慮の各トリプレットを学んで孤立学習方法学習問題への鍵です。

3.技術的方法と研究状況

  知識表現学習が、近年で検討され、研究者は、Knowledge Baseのエンティティとの関係を表す学習、モデルの多様性を提案しました。このセクションでは、代表での方法を説明します。

  構造[ボルド、ら、2011]を示し (構造埋め込み、SE) いくつかの以前の知識表現の一つです。三重事実のために、SEヘッドエンティティベクトルとベクトルエンティティ尾関係を通じて二つの行列に対応する空間的関係に投影、2つのベクトルの投影距離は、次に空間で計算されます。この距離は、意味的な関連性の関係で2つのエンティティを反映して、彼らの距離は、これら2つのエンティティ間のこの関係の存在を示す、小さいです。しかし、SEモデルは大きな欠点を持っていた:それは二つの異なるエンティティの射影行列を使用して、尾を頭、相乗効果は、多くの場合、貧しい正確に2つのエンティティとの関係の間の意味的関係を特徴付けることができません

  このように、単一層ニューラルネットワークモデル[Socherら2013】(単層モデル、SLM)を正確SE意味論的エンティティの接触問題との間ではない相乗的な関係を減らす特徴付けるために、単層ニューラルネットワークの非線形動作を試みます。が、SLMは、SEモデルの改良版であるが、それは非線形操作のみエンティティと関係の間に比較的弱いのリンクを提供しています。同時に、しかしより高い計算の複雑さの導入。

  また、セマンティック整合エネルギーモデル[ボルドら2012 ;.ボルド、ら、2014](セマンティックマッチングエネルギー、SME)は、エンティティおよびリレーションシップ間の意味的関係を見つけるために、より複雑な操作を提案しました。SMEは、エンティティおよび関係の各々は、低次元のベクトルで表されます。これに基づいて、SMEは、エンティティと内部関係との間の関係を特徴付けるためにバイリニア関数を使用して、いくつかの射影行列を定義します。

  双一次変換の関係、特性を使用して提案されたモデルに基づいて、同様にバイリニア関数よく隠れ変数モデル[Sutskeverら2009 ;. Jenattonら、2012年(]潜在因子モデル、LFM)エンティティと関係の間に二次リンク。簡単で効果的な方法によるエンティティと関係の意味関係の肖像画、より良い相互運用性、低い計算複雑性:以前のモデルと比較すると、LFMは大きな突破口を作りました。

  後DISTMULTモデルのも探求LFM簡略化した形態[ヤン、ら、2015。]:対角行列に関係マトリックス。実験は、この単純化が唯一大幅にモデルの複雑さが軽減されていないことを示し、モデルの結果が大幅に改善されました。

  LFM、テンソルニューラルネットワークモデルに基づい[Socherら2013](ニューラルネットワークテンソル、NTN)エンティティ間のリンク関係を特徴づけるさらに双一次変換の関係は、基本的な考え方は、ビスを使用することです異なる頭部寸法にニューラルネットワークの置換された直鎖テンソル従来の線形変換層、エンドエンティティ連結ベクター。、テンソルNTN操作が導入されて以来、それがより正確にエンティティと関係の複雑な意味的な関係を記述することができますが、計算量が非常に高くても、私たちはトリプル試料成分の学習の多くを取得する必要があります。実験は、大規模なスパース知識マップ上のNTN悪い結果ことを示しています。

  また、マトリックス分解は、低次元のベクトル表現を得るための重要な方法です。そのため、一部の研究者は、マトリックス分解知識表現の学習を使用して提案しました。この点で代表的な方法はRESACLモデル[ニッケル、ら、2011 ;.ニッケル、ら、2012]です。RESACL基本的な考え方は、前のLFMに似ています。ことを除いて、RESACLテンソルは、値0の位置を含む、全ての位置を最適化すると、LFMのみ最適化された三重現在の知識ベース。

  最近、単語ベクトル空間を触発ボルドは、並進不変字句意味論的および統語関係の興味深い現象、提案TransEモデルである[ボルドは、ら。、2013 ]、 知識ベースとの間の関係は、エンティティとみなされていますいくつかの並進ベクトル。従来のモデルと比較すると、TRANSE少ないモデルパラメータ、低い計算の複雑さ、それが直接エンティティと関係の間の複雑な意味関係を作成することができます。WordNetのとFreebaseのと他のデータセットにリンク予測評価作業を行ったボルドは、実験では、以前のモデルが大幅に向上しているよりもTransE性能を示します。特に、特に驚異的な大規模スパース知識マップ、TransE性能、インチ 提案されていることから、TransEシンプルかつ効果的なので、研究活動のTransEの多くは延長して適用されることがあります。TransEの知識表現が学習の代表モデルとなっている、と言うことができます。上TransEに基づき、多くの研究者がTransEはまだ処理できない問題を解決するための改良モデルを提案しています。

  3.1複雑な関係をモデル化

  モデルはシンプルですTransEので、大規模にマッピング知識の効果は明ら​​かです。しかし、あまりにもシンプルに起因する、TransE結果としては、前述の知識ベース間の複雑な関係を扱うに延伸しました。例えば、それぞれ、2つのトリプルがある場合は、ナレッジベース、(米国、オバマ大統領)と(米大統領、ジョージ・W・ブッシュ)。ここでの関係は、「大統領は、」1-Nの典型的な複雑な関係です。あなたはTransEの知識表現とこれら2つのトリプルから学ぶ場合は、ベクトルオバマとブッシュは同じになります。

  为了解决 TransE 模型在处理 1-N、N-1、N-N 复杂关系时的局限性,TransH 模型[Wang, et al., 2014]提出让一个实体在不同的关系下拥有不同的表示

  TransR 模型[Lin, et al., 2015]进一步认为不同的关系拥有不同的语义空间。对每个三元 组,首先应将实体利用矩阵投影到对应的关系空间中,然后再建立从头实体到尾 实体的翻译关系。

  针对在知识库中实体的异质性和不平衡性,还有 TransR 模型 中矩阵参数过多的问题,TransD 模型[Ji, et al., 2015]和 TranSparse 模型[18]对 TransR 模型中的投影矩阵进行了进一步的优化

  此外,TransG 模型[Xiao, et al., 2015]和 KG2E 模型[He, et al. 2015]提出了利用高斯分布来表示知识库中的实体 和关系,可以在表示过程中考虑实体和关系本身语义上的不确定性

  可以看到, 在TransE之后,在如何处理复杂关系建模的挑战问题上,提出了TransH、TransR、 TransD、TranSparse、TransG 和 KG2E 等多种模型,从不同角度尝试解决复杂关 系建模问题,可谓百花齐放。在相关数据集合上的实验表明,这些方法均较 TransE 有显著的性能提升,验证了这些方法的有效性。

  3.2 多源信息融合

  知識は、マルチソース情報の融合に直面する方法を学ぶためのもう一つの重要な課題です。三重構造マップ情報の知識のみを使用して、このような学習モデルTransE等の知識表現を既存の、学習効果的に利用されていない他の情報に関連する多くの知識があることを示します。、知識表現の学習を達成するためにマルチソース異種情報のこれらの完全な統合を行うことが重要であるどのように、それは、データスパースネスの問題を改善する知識表現区別する能力を向上させることができます。上記の情報の知識表現学習の融合では、多くの研究が行われているが、一般的にここで簡単に、まだその初期状態では、いくつかの代表的な作品を話します。

  知識表現エンティティを考える(説明、実施学習知識表現のあるモデルを学習記載DKRL [謝、ら。、2016])。DKRLモデルは、提供される知識ベース遊離塩基として記述テキスト情報考え知識表現エンティティの研究で提案されています。テキスト表現では、DKRL 2つのモデルが考えられて:

  1. CBOW、テキスト表現の単純な加算などのテキスト用語ベクトル。
  2. コンボリューションニューラルネットワークは、語順は、テキスト内の情報を考慮することができます。

  DKRL 的优势在于,除了能够提升实体表示的区分能力外,还能 实现对新实体的表示。当新出现一个未曾在知识库中的实体时,DKRL 可以根据 它的简短描述产生它的实体表示,用于知识图谱补全等任务。这对于不断扩充知 识图谱具有重要意义。 此外,Wang 等人提出在表示学习中考虑文本数据,利用 word2vec 学习维基 百科正文中的词表示,利用 TransE 学习知识库中的知识表示。然后利用维基百 科正文中的链接信息(锚文本与实体的对应关系),让文本中实体对应的词表示 与知识库中的实体表示尽可能接近,从而实现文本与知识库融合的表示学习。 Zhong 等人还将类似的想法用于融合实体描述信息[Zhong, et al., 2015]。 已有工作表明,多源信息融合能够有效提升知识表示的性能,特别是可以有 效处理新实体的表示问题。但是,也可以看出,多源信息融合的知识表示学习仍 处于非常起步的阶段,相关工作较少,考虑的信息源非常有限,有大量的信息(如 音频、图片、视频等)未被考虑,具有广阔的研究前景。

  3.3 关系路径建模

  知識マップでは、多段階のパスとの間の関係はまた、エンティティ間の意味的な関係を反映することができます。等TRANSEモデルを破壊するために、各トリプレットの制限を学習単離された、Linらは関係がTRANSEの拡張がパスベースTransE(PTransE)モデルら[林、に基づいて、提案されているように経路を学習表さ考えます。、 2015]。ほぼ同時に、成功したと考えられモデリング関係パス学習知識表現における他の研究チームがある[アルベルトは、ら、2015 ]。学習経路との間の関係はまた、QAの知識に基づいて使用される表す[区、ら。、2015 ]。実験PTransEや他の研究は、それが表示さの関係パスを考える大幅知識表現を高めることができる学習差別とマッピング知識補合同のタスクのパフォーマンスを向上させます最初のパスのモデリング作業さらに比較の関係は、計算関係経路、操作の経路意味組合せの信頼性は、多くの詳細な点検作業を行う必要があります。

  4.技術の展望と動向

  近年では、知識表現の学習は、すでに大きな可能性を実証し、多くのタスクに感じられてきました。TransEピアモデルが直面している課題は、多くの改善を行いました。しかし、知識表現の学習はまだ遠い本当の実用からあり、このセクションでは、見込みの学習知識の将来の方向性を示します。

  知識表現学習の異なるタイプの知識が 1-1,1-N、N-1およびNN視覚的知識の性質を説明するためにできない四つのカテゴリー、関係のこのタイプのやや概略的分割に分割関係の知識を働いています特性を入力します。な科学としての認知権威ある雑誌での科学的研究の最近公開された結果は、人間の知識は、以下の構造などがあると結論付け[ケンプら、2009テネンバウム 、ら、2011 ..]:

(1)ツリーとの間の関係は、エンティティ間の階層的な分類との関係を表します。

(2)二次元グリッドとの間の関係は、現実世界の空間情報を表します。

(3)一次元シーケンス関係、エンティティ間の半順序関係を示します。

(4)関連またはエンティティ間の因果関係を表す、ネットワーク関係を指示しました。

  认知科学对 人类知识类型的总结,有助于对知识图谱中知识类型的划分和处理。未来有必要 结合人工智能和认知科学的最新研究成果,有针对性地设计知识类型划分标准, 开展面向不同复杂关系类型的知识表示学习研究。

  多源信息融合的知识表示学习

  在多源信息融合的知识表示学习方面,相关工作还比较有限,主要是考虑实 体描述的知识表示学习模型,以及文本与知识库融合的知识表示学习,这些模型 无论是信息来源,还是融合手段都非常有限。我们认为在多源信息融合的知识表 示学习方面,我们还可以对下列方面进行探索:

  (1)融合知识库中实体和关系的 其他信息,知识库中拥有关于实体和关系的丰富信息,如描述文本、层次类型等。 有机融合这些信息,将显著提升知识表示学习的表示能力;

  (2)融合互联网文本、 图像、音频、视频信息,互联网海量文本、音频、视频数据是知识库的重要知识 来源,有效地利用这些信息进行知识表示可以极大地提升现有知识表示方法的表 示能力;

  (3)融合多知识库信息,人们利用不同的信息源构建了不同的知识库。 如何对多知识库信息进行融合表示,对于建立统一的大规模知识库意义重大。

  考虑复杂推理模式的知识表示学习  

  考虑关系路径的知识表示学习,实际上是充分利用了两实体间的关系和关系 路径之间的推理模式,来为表示学习模型提供更精确的约束信息。例如,根据三 元组(康熙,父亲,雍正)和(雍正,父亲,乾隆)构成的“康熙”和“乾隆”之间 “父亲+父亲”的关系路径,再结合三元组(康熙,祖父,乾隆),PTransE 实际上 额外提供了“父亲+父亲=祖父”的推理模式,从而提升知识表示的精确性。

  実際には、頭と尾のエンティティのエンティティを必要とする特殊な形でだけ複雑な関係パス推論モードは変更されません必要があります。しかし、実際には、ナレッジベースと推論モードの他の形態は、そのようなトリプル(米国、オバマ大統領)と推論との関係がある(オバマは、アメ​​リカ人ということである)が、両方のヘッド、テイルエンティティが完全に一致していません。あなたのアカウントに推論知識表現学習のこれらの複雑なパターンを取ることができれば、我々はさらに知識表現のパフォーマンスを向上させることができるようになります。この問題では、要約し、これらの複雑な推論モデルを表現するためにどのように重要な問題です。今のところ、一階述語論理(第一階述語論理、FOL)は、複雑な推論モデルプログラムのより良い表現である、我々は一階述語論理分散表現、知識表現と学習への技術ソリューションの統合の未来を探求する必要があります。

  大規模なオンライン学習と高速学習のためのナレッジベースの大規模なスパース知識ベースは非常に強いです。予備実験は、既存の学習モデルは、パフォーマンス上の大規模な知識ベース、エンティティと関係の低周波の効果の特に貧しい表現で心配を表していることを示しました。そして、知識ベースを拡大し、我々は効果的なオンライン学習プログラムを設計する必要があります。マルチソース情報の完全な統合に加えて、スパース加算を減らす、我々はまた、さらに知識表現の効果を改善するために、イデオロギーコースや転移学習アルゴリズムを描く、表現を最適化する方法を学ぶための方法を模索することができます。

  知識表現に基づく分散アプリケーションの知識表現学習の統合と推理の方向は、広範なアプリケーションスペースがあり、知識を習得、まだ始まったばかりです。私たちは、探求し、重要なタスクの数に知識表現を学習の有効性を検証する必要があります。知識表現に基づいて、関係抽出タスクは、知識ベース情報の有効活用を学ぶことができた場合、我々は大幅抽出性能およびカバレッジを改善することができるであろう。ここでも、利点は、クロスカット、クロス言語知識ベースの統合を達成するための情報融合に学習取ることができます。現時点では、知識表現の役割は、推薦システムが最初に確認された、情報抽出、質問応答、情報検索で配布されており、将来的にはより多くのタスクのより詳細な探査を必要としています。

 

おすすめ

転載: www.cnblogs.com/the-wolf-sky/p/11067906.html