マッチング仕上げノートオントロジーに基づくインスタンスの実証的研究
まず、紙は、あなたの思考の流れを整理します
1.1関連研究論文
- 現在の最優先事項は、自動的に実体を一致させることです
- エンティティインスタンスが一致マッチングに基づいて、背景知識のマッチングに基づいて、語彙の共通度に基づくマッチング、マッチングエンティティ構造に基づいて、現在のエンティティマッチング技術は、4つのカテゴリに分類されます。
- 主な研究は、エンティティインスタンスマッチングの一致に基づいています。主なアイデアは、二つの概念(エンティティ)オーバーラップのより具体的な例として、大きく2つのエンティティ間の関係のインスタンスと一致することです。難しさの例としては、重複度の定義と一致する方法です。
- 体系的なアプローチが提案主に考え尺度(計算2つのエンティティの重複率)、閾値(前方の閾値測度)、三次元(相続人のエンティティの例の延長として考えられる)階層。
- 本稿では、システムは、マッチテーブルの度合いを算出し、
- この記事では、最高のシステム労働条件の問題を作るために階層を選択する方法メトリック、しきい値を、答えます。
- 本論文では、ユースケースのシナリオについて説明します。情報は、言語の科学的な情報収集オランダの歴史や文化などすべてのオランダ語の本印刷出版物や本をセット含まれてい
- ベースのマッチングシステムは、本明細書フレームの例を提案しました。
1.2論文の問題
論文の問題解決プロセス1.3
1)に示す2つのエンティティS(ソース)とT(ターゲット)、目標は、Rは、SとTとの間の関係であり、トリプレット(S、T、R)、≡{含むタイプのRを見つけることである⊑ 、⊓、⊥}これら四つの(等しい、非交差、重複しています)。
2)マッチング対象エンティティのインスタンスは、主エンティティのセットの重複部分の2つの例を検討し実施しました。
3)の概念嫉妬依存エンティティをマッチングの形態の例に基づき、本明細書に記載同じ概念セットの異なる形態を考慮しなければなりません。主な検討事項は、この概念は、そのラベルによってまたはインスタンスとマークされ、拡張の例の個々のセットで設定された一例に過ぎないということです。
4)私たちが評価する他のメトリックを使用して第二には、インスタンスの現実は誤ったラベルを考慮に入れて、データが散乱され、曖昧な概念やその他の問題、重複度を算出することは非常に困難である:最初の使用は、インスタンスの二組を計算するための他のメトリック関連性は、その後、信頼できない情報を排除するために得られる統計のしきい値を使用することを検討してください。
- その後の記事は、特定の使用の他の措置を与えます:
1)ジャカード:これら二つの概念が含まれる関係の一例であるが、同時に2つの概念によって指定少量を測定するために使用されます。概念セットの重複計算された2つの例の最終比
2)ジャカードを修正:に基づいてジャカードは、例えば、マーカーの小さな数は、スコアを低くするように見えます
3)PMI:点単位相互情報量、ラベルの不確実性の概念を低減するためには、N標識インスタンスの数である、マークされ、別の考え方が必要です
4)ログ類似率
5)情報エントロピーを得ます
- 上記の方法は、このように範囲の概念を廃棄する閾値(ヒット数の一例)を設定し、統計的実現可能性を確実にするために標識されたインスタンスの大量を必要とするので小さすぎます。エンティティの別の種類に加えて、複数のエンティティまたは関係の中でものを見つけることができます。
- 最後に実験により、ジャカードは、10ジャカード、PMI、LLR、及びIGB 1を補正して適切である閾値
- データセットが提供されます任意の二つのタグの間に243886書籍情報をブリンクマンとGTTからの概念を使用することによって。この記事では、タグ付けの概念のインスタンスとして本をマークします。
- 実験方法
1.4実験方法古紙
1)ゴールドスタンダード:得られた金の標準マニュアルのアノテーションを使用して
2)平均精度:Niはiがマッチングに一致する前のインスタンスの評価の数であり、正確なマッチのNgoodiで数
3)おおよそのリコール
4)F標準:
- この実験の最終的な目標は、標準的な組み合わせとしきい値を設定するための最も適切な措置があれば、どのような役割を再生している場合マッチングで異なる指標を設定することです。結論は、実験は答えるように設計されています。
1)どのように最後の試合結果に影響を与える新たに挿入された結果と一致します
2)衝撃閾値が選択されるもので
情報の拡張された概念を使用してどのような影響3)
4)選択のベストマッチに基づいてどのような対策は一例です
実験1.5の結果の最終評価
- 結果のマッピングの性質に影響を与える:関係の3つの性質を考慮してください。(唯一対等な関係を含む)ONLYEQを、NOTRELは(「関連」関係に加えて、関係の3種類が含まれます)、ALL(考慮していないリンクを除くすべての関係は)、および見つかりませんどのようなものポートフォリオ基準の一つの尺度、ONLYEQ関係で最高のパフォーマンス。(のみONLYEQ関係を検討した後、実験ではそのための記事)
- 影響閾値の選択:使用しきい値は、インデックスの精度を向上させることができ、リコールのシングルレートの損失になります
- 選択肢の最良の指標:JCとJCcorrは、内のすべての試合で最高のF-対策、精度と再現率を持っています
第二に、紙の革新
オランダ国立図書館のアプリケーション上の多数の実験に基づいてインスタンスのマッチングに基づく実証研究を提案しました。
5つの一般的な方法の比較類似性尺度に基づいて、最良の策を見つけるために、実験の組み合わせにより、しきい値と情報のレベルの使用は、エンティティインスタンスのマッチングに基づいています