「ドメインオントロジーテキスト技術から」読書ノート

記事の三つの目的

1.自動または半自動メインテキストデータソースオントロジーの分析方法(データソース:構造化データ:データベース、半構造化データ:科学文献;非構造化データ:テキスト・リソース、データ・ネットワーク)

2.これらの方法が直面する課題と

3.今後の研究の方向

本体は、に分かれています。

  1. ドメインオントロジー:該当する仕様を確立することが唯一の特定の領域を記述する
  2. 一般的なボディ:知識体系の確立が広くアプリケーションシナリオのさまざまな使用することができます(さらに困難建物)

からなる身体の三つの部分:

  1. コンセプト
  2. 概念間の関係
  3. 公理の上に構築された関係(公理:本当にの代わりに、アサートされません)

建設オントロジー:

  1. 専門家は手動で構築体に依存している(主観)
  2. 構築するためのいくつかの機械学習方法の助けを取るために自動または半自動の方法。(主流の方式となります)

ボディビルドプロセス:

  1. 前処理モジュール:前処理入力テキスト(句読点、ワード、POSタグ付け、フレーズ認識)用
  2. 用語抽出モジュール:抽出用語は、当技術分野および関連性の高いターゲット
  3. 概念抽出モジュール:関連性の高い抽出し、対象領域の概念
  4. 抽出モジュールの階層:オントロジーの概念間の階層関係を抽出します
  5. 非階層関係抽出:オントロジーの概念間の階層関係(焦点のも困難)より関係の抽出他のタイプ

オントロジーデータ入力タイプ:

  1. テキスト入力(タップ本体)(主流方向)
  2. 入力体(オントロジーマージ)

技術ロードマップ:

 

オントロジー構築の支配的な方法:

  1. 統計ドミナント工法:クラスタリング、単語頻度、単語共起分析、潜在意味解析、用語と、関係ルールマイニング、浅い自然言語処理。特徴:より柔軟で、広く異なるオントロジー言語構造の下で、様々な分野に応用することができます。
  2. 工法をリードする言語学:非階層関係や精度を扱う自然言語処理技術の高い依存度、高い結果の合成語。実際の使用では、多くの制限を受けます。

各タスクモジュール本体の一般的な技術の構築:

  1. 用語(単語の大きな配列と安定した用語を参照した技術との関係の程度に応じた関連単語列)抽出:情報検索およびデータマイニングのために使用されるTF-IDF重み付け技術(それがファイル内にあるように出現数が比例して増加)、C-値/ NC-値、ランダムウォークの割り当て、自然言語処理ツール
  2. 概念抽出:用語クラスタが同様に形成されています
  3. 事前に定義されたテンプレートの数の専門家、設計、言語的ルールに基づいて、クラスタリング:階層的な関係を抽出する:関係抽出は(オントロジー構築の中で最も重要なステップです)。それぞれ、中心コアとして深い自然言語処理技術に基づいて(解析、係り受け解析)、各文のために動詞のコアを識別するために、次に動詞に:(マルチレベルの関係よりも複合体を抽出するために)非階層関係抽出一緒にトリプル単語とコアで見つかった二つの概念の関係、コア動詞と近接して概念を見て左から右へ。

オントロジー構築の評価:

  1. アプリケーションに基づいて評価:アプリケーションの観点から、身体のパフォーマンスへの影響を評価する(直感的ではありません)
  2. 身体自身の評価に基づいて:本体との間にそれぞれ構築の概念のための関係を評価する(広く使われています)

一般的なオントロジー解析システム :(適用性、意識、supportの出力など)

  1. GRAONTO:非構造化テキストから構築される図該当ドメインオントロジーに基づいて自動システムの構築、統計的手法を採用しています。(データサイズが増加すると、システムの性能が急激に低下します)
  2. CRCTOL:従来から自動構築システム本文のテキスト
  3. Text2Onto:テキストデータから構築ツール本体。

オントロジー構築の問題と課題:

  1. 本体の更新:常識の一般的な知識として本体は、一定の安定性を有します。定期的に更新されたデータソースと再オントロジーはあまり効率的な方法です。
  2. 問題本体曖昧さ回避の関係(動詞抽出コア、これらの動詞のコアは、異なる意味を存在していてもよいです)
  3. 属性の自動取得オントロジーの概念の曖昧さ回避の問題と概念(曖昧さ回避の問題が尊重されていません)

今後の研究の方向:

  1. アプリケーションの深さの研究では、オントロジーオントロジー今後の研究の方向のいずれかになります。ボディ少ないポータブル構築、大規模な実用的なボディ、機械学習と自然言語処理を構築することは困難である2つの固有の問題があります限られており、無制限のタグ付けデータのタグ付けの要件間の矛盾、限らマニュアル機能や能力構築を無制限の実用的な機能間の矛盾。しかし、深い学習は新しいツールを提供します。
  2. オントロジーの概念を抽出し、ボディとの間の関係を研究するために、知識マップ研究のアイデアを使用して、オントロジー今後の研究の方向のいずれかになります。マッピング知識マイニング関係の方法(トリプルはベクター、エンティティ間に存在することができる関係のタイプを決定するためにマップするいくつかの高次元空間として表されます)
  3. 一些尚未解决的问题:本体公理的构建(本体中公理的学习仍处于最初始阶段);找到客观评价本体准确率、算法效率、本体完备性的文法;本体构建不存在一个通用型、指导性的方法体系;几乎没有完全自动化的系统,多数方法需要用户的参与来从标注语料库中获取相应的概念以及关系

研究热点:

  1. 如何有效利用社交数据进行本体构建
  2. 进行网络规模级的本体构建研究中,如何保证算法的有效性和健壮性
  3. 如何进行实用化的本体构建研究
  4. 找到更有效的全自动的本体学习方法
  5. 找到移植性更好的本体构建方法
  6. 本体构建方法缺乏通用性,学习方法应该向自动化学习方向努力

 论文链接:https://github.com/Emliy-zcy/KG-papers.git

おすすめ

転載: www.cnblogs.com/zcy9838/p/11610814.html