ナレッジベースを持つエンティティのリンク:問題、技術、およびソリューション笔记整理
まず、紙は、あなたの思考の流れを整理します
エンティティの主な方法のこの記事では、包括的な概要と分析をリンク、およびアプリケーション、物理リンクシステムと将来の方向性の評価の多様性を議論しました。エッセイは、人気の科学の記事のようなものです。
- 第一に、我々は、リンクされたジョブが作成されたエンティティの理由を要約したものです。
1)大自然言語の形で生成されるデータの量が、特定の自然言語生成データには、データのあいまいな名前付きエンティティ・クラスが高いです。
新しいエンティティを挿入するか、事実は必然的に新しいエンティティとエンティティリンク元の知識ベースへの参照が必要な場合2)知識ベースを既存。
- そして、実際の作業上の記事のリンクが詳細に記載されている、それがリンクされたタスクは、エンティティセットのEが含まれている知識ベースを与えられた実体を参照し、固有表現Mテキストのセットが含まれています。タスクは、リンク対応するリポジトリに一致する各テキストエンティティエンティティを参照して、エンティティの名前付きエンティティのセットを連結することです。各エンティティは、テキスト文と呼ばれ、知識ベースに対応するエンティティがエンティティへの参照を見つけることができなかった場合は、mは、先に定義されたエンティティにマッピングすることができ、エンティティがNIL標識呼ぶことにします。通常、物理リンクシステムは、次のとおりです。
生成1)候補エンティティのセット
2)選択エンティティ順位候補
3)接続(上述接続故障予測)の結果を示します
- 資料の冒頭にも実体リンクの印加方向を示します。
1)情報抽出:通常明確にリンクするための知識とを必要とする名前付きエンティティおよび関係情報抽出システム。
2)情報検索:より正確にするために、本文中で言及したネットワーク内で明示的なエンティティベースの検索セマンティックエンティティを生じセマンティックエンティティおよびWebドキュメントを処理する必要が
3)コンテンツ分析
4)Q&Aシステム
5)知識ベースを生成します
- ウィキペディア、YAGO、DBpediaの、Freebaseは:記事はまた、現在の簡単な一般的な知識ベースを記述する
- この論文は、一般的に、候補エンティティの生成を含む、エンティティ格付けの候補者を分離するために使用される物理リンクのシステムおよび方法のさまざまなコンポーネントを紹介した後、我々はリンクは三つの部分に言及予測することはできません。
- 候補生成手段は、各エンティティのエンティティをm∈Mを呼ぶ、それのための物理リンク候補エンティティセット、各エンティティは、知識ベースを持つエンティティがリンクを挙げることができるある候補エンティティのセット全体を見つけなければならないシステム。候補エンティティは、メイン技術が一般的に使用される生成します
1)辞書ベースの命名法:ウィキペディア例えば(によって提供される機能を使用して)ローカル辞書のセットを組み合わせることにより得られました。名前付き辞書Dは、キー列がリストの名前でマップvalue⟩、⟨keyです。仮定するkは名前に関連付けられたエンティティのセットと呼ばれる値の列kにk.valueマッピングされた値を指定したカラムに結合です。建設辞書Dは、一般的に次のような機能である:物理ページ(ウィキペディア具体的に説明ページ実体いるすべての情報)、リダイレクトページ(ウィキペディアは他のページは、エンティティに関連する可能性が含まれている)、曖昧さ回避ページ(ウィキWikipediaのページには、同じ名前の複数のエンティティ)、太字の単語の最初の段落、記事のハイパーリンクを区別する。
そのような略語、別名としてフォームを、上述の名前複数の識別:ローカルドキュメント拡張によって識別面の形態2)。発見的方法の使用は、(同じイニシャルストップワード、チェック略語削除した後、Nグラム法を使用してかどうか、文書全体N個の連続した単語の存在)、教師あり学習に基づく方法。
3)検索エンジンに基づいて、
- これは、エムが最も適切な物理リンクを選択し、次に生成するエンティティの候補セットに候補者をランク付けされた候補エンティティをランク付けするエンティティを指します。
主要な二分法(所与のエンティティがエンティティは候補エンティティを参照して述べたかどうかを決定するためにバイナリ分類器を使用して、エンティティと候補を挙げるため)、ランク方法学習(訓練データに基づいてランキングを自動的ビルド:1)の方法は、教師あり学習モデルは、、)尤度法を最高ランクの候補エンティティを選択します(クエリ文書が大きく、部分的コヒーレントエンティティを指し、彼らは候補エンティティ格付け問題)、グラフベースの方法に対処するために、この「テーマの一貫性」を使用しています。
2)教師無し学習法:(候補エンティティは、別の文書として索引付け、および各エンティティの抽出物情報検索方法に基づいて、ベクトル空間モデル(ベクトル及び候補ベクトル間の類似度の算出上述の物理的実体)そして、)彼らは、エンティティから言及し、そのコンテキスト文書は、検索クエリを生成します
- 候補エンティティ格付け機能に関連付けられています
1)関連するテキストの特徴:名前ストリング比較(類似性に基づいて比較する文字列)、繰り返し物理エクステント
2)テキスト特徴に関連しない:コンテキストテキスト(コンテキスト・エンティティに記載さ尺度との間のテキストを囲む、通常の単語の袋、コンテキストベクトル表現の概念)と、候補エンティティ類似度に関連付けられている文書、リンクエンティティ間のコヒーレンスの程度は、(文書は、一般に、コヒーレントなエンティティ内の1つのまたは複数の関連トピックを参照し、同一の文書に記載されたエンティティへの連続リンクの共通のテーマを利用することができます。)
- 言及リンクの故障予測:
1)関連スコアS etopエンティティと最高位にランク。スコアがNILの閾値τよりも小さい場合、参照エンティティは、NILを返し、mはmは予測リンクを言及されていません。
2)教師付き学習に基づいて、トレーニングデータは、名前の言及リンクかどうかを予測することができます
3)エンティティに基づいてランクに学習の方法では候補がNILを追加すると、NIL出力は言及していないリンクと考えられている最高ランクのエンティティとしてランクインしています。
- メトリック:
1)精度(精度):システムのすべてのエンティティは、リンクによって参照検討、および物理リンクシステムは、参照することにより正しいエンティティをリンクする方法を決定します
2)リコール(リコール):すべてのリンクが正しくリンクの割合を測定するために、エンティティを言及する必要があります考慮し、対応するリンクは、エンティティに言及したすべてのエンティティを述べました
3)F1メジャー
- 可能性のある将来の方向だけでなく、既存の問題:
1)現在のほとんどの固体リンクシステムは、エンティティが、そのようなニュース記事やブログなどの非構造化文書()からタスクを述べ検出された物理リンクに焦点を当てています。しかし、実体はまた、他のタイプのデータで発生する可能性が挙げられ、これらのタイプのデータは、知識とのリンクに必要
彼らは通常、彼らのシステムの効率性と範囲を評価していないので、2)実体上の作業のほとんどは、計算の複雑さの分析の欠如をリンク
3)例えば(特定の分野における知識ベースと充填を確立し、生物医学、エンターテインメント、製品、金融、観光)の需要が高まっているので、特定のエリアへのエンティティのリンクも重要です。特定のエンティティのフィールドへのリンクは、特定のデータフィールドに濃縮し、特定分野の知識は、異なる構造及び一般的な知識を有していてもよいです