文学読書ノート(5)

2019年のWeb Semantics_Linking誌異質RDFグラフ全体の曖昧さをなくすエンティティ笔记整理

 

 

まず、紙は、あなたの思考の流れを整理します

1.1関連研究論文

  1. CBD(簡潔な有界の説明)簡潔な境界記述
  2. (属性をマーカーとして選択され、例えば、)手動識別データパラメータ直面する困難を減らします
  3. データの分類インスタンスの異種セマンティックおよび実用的な例の多数によります
  4. CBDの例は、マッチング段階で表現し、データソースの比較のためのベースの分析の枠組みを提案しました
  5. (ラベル属性として適していない)は、自動的に2つのデータセット間の削除「問題」プロパティを識別するための新たな戦略
  6. 多くのテストの後、オープンソースのベンチマーク測定の多数のために(ベンチマークが測定)
  7. オープンソース系の例としては、提案の簡単なインタラクティブなインターフェースを持っています
  8. 最初の異種データの分類を提案した:異質の形態の説明は、(属性またはカテゴリ)の値と構造を発見したように、以前の研究によれば、この論文では、2つのデータセット間の異なる焦点を当てています。特定の合成ベンチマーク懸念とクラシック音楽とOAEI @ IMが生成されたデータセットの多数の非常に異質現実の使用中にこの記事。

1.2論文の問題

論文の問題解決プロセス1.3

1)異種データ値の寸法:用語異質性(これは同義、異なる言葉で曖昧性農産物単語だけでなく、スペルミスの少数)、言語の不均一性(言語翻訳に互いににより異なります)、データ属性およびオブジェクトがTXTは、URLによって表すことができるように(情報)を表すことができる不均一属性

2)物理的寸法異質:により生じる異なる粒径)、特性(異なる図面における同一の情報は、情報のソースであってもよい)の不均一性から異なる深さに不均質構造は、(不均質(一例を説明します別のデータセットに、)キーワードの不均一性をより多くの情報を記述することができます。

3)不均質論理寸法:異質分類は、異質性を属性

4)データ品質寸法不均一性:データ型の異質性が、データセットの整合性

  1. データリンク(パラメータ、データ設定処理)、マッチング、処理後(壊れたリンクを除去し、新しいリンクを挿入する)前処理を含みます。本稿では、すなわち、簡素化し、ステージを前処理自動化前実際の位相比較例の処理の詳細を考えます。
  2. 選択と分類プロパティ:たくさんによる現在のキーに自動的に生成されたキーには、識別子としてシステムによって生成することができません。したがって、インパクトの主要な測定は、ラベルとして結合された二つのデータセットの最も有用な尺度を選択することで生成されたキーが非常に重要になります。
  3. リンク仕様:類似性尺度の複合類似性基準データバインディング要素、音符の2つのセットの間の比較として提供され、類似性尺度閾値設定
  4. レガートデータリンク:システムは、入力として2つのRDFグラフであり、その後、自動的に前処理し、次いで、マッチングステージインスタンスを介して、非曖昧化例えば、最終的な結果として、選択されたリンク接続のセットを生成します。
  5. 関連定義:

1)としては、エンティティ(通常トリプレット単数または複数)の識別子として、本明細書では「ソース」または「インスタンス」(リソース\インスタンス)を使用し

2)RDFデータキーの2つの公知の供給源S1、S2、およびそれらの述語(属性)。すべてのキーS1こと、K属性値の同じ特性は、S2 = {P:Pは、S1、S2∈SUBJのいずれか(G)及びP(S1)= P(S2)、(G)∀pを⊆pred∈ P}

  1. CBD:図サブRDFグラフは、サブグラフは、Rのための1つの供給源である。これは、rは全てトリプル含むサブグラフはS、この場合、CBDは、ブランクと、このブランクノードトリプルであるO sのノードトリプル
  2. データリンクは、2つのプロパティ間のすべてのRDFグラフの等価性を探します
  3. トリプレットについてのRへ(O)次のCBD(R)前
  4. CBD(R)の後継:SにRでトリプレット
  5. ↑CBD(R):CBD(R)及びその前身のすべてを含みます
  6. ↓CBD(R):CBD(R)を含む、すべてのその後継
  7. ↕CBD(R):CBD(R)など、およびその前身、後継の全て
  8. CBD *(R):トリプルを含む上記のすべてを含みます
  9. 実施例分析:テキストコンポーネントRDFグラフGは、L(G)であり、テキストF(R)のインスタンスは、CBDに属するすべてのL(G)のセットであります*
  10. レガート構成モジュール:

1)属性フィルタリング:属性識別子二つのソースとして単一の属性を残して、属性識別子としてではないフィルタリング

2)主整合モジュール:例としては、CBDの分析に基づくものを含む、インスタンスがマッチングに基づくベクターの例としては、ベクトル解析(ベクトル空間と限定すると重み付けされたベクトルのインスタンスへのマッピング)にマッピング

  1. 入力としてベクトル空間、及び最後に(一緒に高い類似性データセットを有する)集合体に標準の類似度を生成し、従って候補セットへのリンクを生成する:例曖昧性解消モジュール。
  2. リンクを合わせた2つのソースの間のリンクのためのL(RSの送信元および宛先RT)=(RS、RT)候補セットリンクに入れ、次いで濃度見てLを決定「=(RS、R」T)見つかった場合、lは候補から削除して濃縮しました。
  3. データセットを決定するための不均一

、パッケージおよび実施例はベクトルにマッピングされる単語とみなすことが相似ベクトルを算出する:1)データが異質値

2)論理異質:ソースノードNからの深さのためのCBDの使用を検討

1.4実験方法古紙

  1. 使用データセット:DOREMUS、合成データセット(SPIMBENCH 2015 SPIMBENCH 2016 2017 SPIMBENCH)(9-HT、4-HT(不均一)とFP-トラップ(偽陽性トラップ)を含みます)
  2. コンテキスト集合

1)自動識別測定リ​​ンク生成の問題自動的に濾過モジュールの効率を評価するための属性(属性)

の選択された例の2)分析

3)効果キーを使用して、例えば張り替え

4)他のシステムとの全体的なレガートを比較

生成リンクの他の方法と5)レガート自動比較

  1. 使用インジケーター:FM、P、R
  2. プロパティは、濾過効率:問題のすべてのプロパティを考えてみましょ削除属性データが評価DOREMUSを設定し、その後です。これはHT自動フィルタリング特性を用いる方法は、9-HTデータはより良好な性能を設定することが見出されました
  3. 効率解析例:データセットOAEI2017、レガートの例に異なる分析を使用することを検討してください。それは、↕CBDとみなさ分析がより高いスコアFmとを得ることが判明しました
  4. 後続のプロセスの効率:主な考慮事項、及び曖昧性除去リンクの例は、DOREMUS2017データセットを使用して、モジュールをマージ。濃縮の割合を決定する削除するか、リンクを追加する割合の候補セットへのリンクを考えてみましょう。それは非常に類似したデータセットのフォローアップの手順は非常に重要であることが判明しました。
  5. 全体的な効率:IM @ OAEI2015,2016,2017の競争ツールと比較して、レガートの自動バージョンを使用。これは、データセット内のレガート異質のパフォーマンスが良い固体寸法が含まれていることが判明したとき
  6. 自動的に生成されたリンクの効率:EAGLEやウォンバットとレガートを比較した、レガート・パフォーマンスにも優れています。

実験1.5の結果の最終評価

1.6フォローアップの紙

エンティティを解決するためのデータセット間の情報の相補性の今後の焦点は、補完的な属性は、比較情報の欠如のRDF原因の問題に異なるデータセットに記述して存在しています

第二に、紙の革新

新しい自動識別削除「問題」二つのデータセットの政策の枠組みとのプロパティは、RDFグラフ間のレガートリンクを自動的に検出することができます

第三に、紙に使用される技術と方法

IM @ OAEI方法

RDFと他の自動リンクツールEAGLE

レガートフレームワーク

第四に、推奨読書の参照

 [48]、[51]、http://islab.di.unimi.it/content/im_oaei/2016、[5]

おすすめ

転載: www.cnblogs.com/hwx1997/p/12444108.html