本体概述

目录
1.定义
2.本体的目标和作用
3.本体构成要素
4.领域本体与上层本体
5.本体语言
6. 构造Ontology 的规则
7.本体在信息检索的应用

1.定义
   –    1991/Neches 等：给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义；
   –    1993/Gruber ：概念模型的明确的规范说明；
   –    1997/Borst ：共享概念模型的形式化规范说明；
   –    1998/Studer ：共享概念模型的明确的形式化规范说明
以上摘自《2003_北大_李芸_Ontology研究综述》

   在人工智能界，最早给出Ontology定义的是Neches等人，他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。Neches认为：“本体定义了组成主题领域的词汇表的基本术语及其关系，以及结合这些术语和关系来定义词汇表外延的规则。。后来在信息系统、知识系统等领域，越来越多的人研究Ontology，并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber提出的，“本体是概念化的明确的规范说明”，原文参见：
　　"An ontology is an explicit specification of a conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what "exists" is that which can be represented. When the knowledge of a domain is represented in a declarative formalism, the set of objects that can be represented is called the universe of discourse. This set of objects, and the describable relationships among them, are reflected in the representational vocabulary with which a knowledge-based program represents knowledge. Thus, in the context of AI, we can describe the ontology of a program by defining a set of representational terms. In such an ontology, definitions associate the names of entities in the universe of discourse (e.g., classes, relations, functions, or other objects) with human-readable text describing what the names mean, and formal axioms that constrain the interpretation and well-formed use of these terms. Formally, an ontology is the statement of a logical theory."。
　　和这个定义类似的有N. Guarino and P. Giaretta (1995)“本体是概念化的明确的部分的说明/一种逻辑语言的模型”（“an ontology is an explicit, partial account of a conceptualization/ the intended models of a logical language.”）。
　　W. N. Borst对该定义也进行了引申“本体是共享的概念模型的形式化的规范说明”（“An ontology is a formal specification of a shared conceptualization”）

　　Studer对这个定义进行分析后认为Ontology的概念包括四个主要方面：
　　1. 概念化（conceptualization）：客观世界的现象的抽象模型；
　　2. 明确（explicit）：概念及它们之间联系都被精确定义；
　　3. 形式化（formal）：精确的数学描述；
　　4. 共享（share）：本体中反映的知识是其使用者共同认可的。
　　原文：“an abstract model of a phenomenon termed ‘conceptualization’,a precise mathematical description hints the word ‘formal’, the precision of concepts and their relationships clearly defined are expressed by the term ’explicit’ and the existence of an agreement between ontology users is hinted by the term ‘shared’.”

其它人的定义：
　　Swartout将本体定义为：“本体是一个为描述某个领域而按继承关系组织起来作为一个知识库的骨架的一系列术语”。（“An ontology is a hierarchically structured set of terms for describing a domain that can be used as a skeletal foundation for a knowledge base.”）。他的定义强调了本体中术语（terms）的重要性。
　　Fensel定义“本体是对一个特定领域中重要概念的共享的形式化的描述”。（“An ontology is a common, shared and formal description of important concepts in an specific domain.”）。
　　Noy F.N. 认为“本体是对某个领域中的概念的形式化的明确的表示，每个概念的特性描述了概念的各个方面及其约束的特征和属性。”（“An ontology is a formal explicit representation of concepts in a domain, properties of each concept describes characteristics and attributes of the concept known as slots and constrains on these slots.”）。
　　Fonseca定义“本体是以某一观点用详细明确的词汇表描述实体、概念、特性和相关功能的理论”。（“An ontology is a theory which uses a specific vocabulary to describe entities, classes, properties and related function with certain point of view.”）。
　　Starla认为“本体必需包括所使用术语的规范说明、决定这些术语含义的协议、以及术语之间的联系，来表达概念”。（“An ontology necessarily includes a specification of the terms used (terminology) and agreements that allow to determine their meaning, along with the possible inter-relationships between these terms, standing for "concepts".”）。
　　M. Uschold and M. Gruninger认为“”（“Ontology is an explicit account or representation of (some part of) a conceptualisation.”）。他还推荐了一个来自SRKB（Shared Re-usable Knowledge Bases）电子邮件列表的定义“本体是关于共享的概念模型的协议。共享的概念模型包括进行领域知识建模的概念框架、互操作的agent之间进行交流的内容明确协议、以及表达特定领域理论的协定。在知识共享的上下文环境中，本体特指表达性词汇表的定义的形式。一个非常简单的例子就是分类的层次结构，指明了类和它们之间的包含关系。关系数据库模式的作用也和本体一样，它指定了某些共享数据库之间可以存在的关系以及必须保持的完整性约束 ”（“Ontologies are agreements about shared conceptualization. Shared conceptualizations include conceptual frameworks for modeling domain knowledge; content-specific protocols for communication among inter-operating agents; and agreements about the representation of particular domain theories. In the knowledge sharing context, ontologies are specified in the form of definitions of representational vocabulary. A very simple case would be a type hierarchy, specifying classes and their subsumption relationships. Relational database shemata also serve as ontologies by specifying the relations that can exist in some shared database and the integrity constraints that must hold for them.”）。
    以上摘自《百度百科_本体http://baike.baidu.com/view/29987.htm》

2.本体的目标和作用
   （1）提供通识术语。本体为群体提供了描述客观世界的标准要领和术语，这些术语受到了严格的定义，得到了群体共同认可。
   （2）形式化隐性知识。隐性知识包括存在于群体生活环境中的、人们日常无意识使用的概念体系和专家知识。本体将对这些知识的形式化表达起到关键作用。
   （3）结构化知识。本体为描述存在实体的概念和关系提供了知识组织模式或知识组织大纲。数据库的概念模式可以说是数据库的本体。
   （4）知识体系化。本体为知识体系化提供了构件。这些构件是经过严密定义了的、群体共识的概念和术语。通过构件能丰富地描述各种现象、事实和理论知识。
   （5）标准化。正如工业标准化工作在工业生产中所起的决定性作用一样，本体将在网络化、大规模化、高效率知识处理中发挥重要的作用。
   （6）设计原理描述。产品设计是一种非单调的知识组织过程，很好地理解最终设计结果需要索引和参与设计相关的大量知识源，因此，基于本体的上下文关系、使用条件和横向联系等知识描述能力，能够刻画设计中的因果关系、推理方法等设计信息，全面地表达出设计者意图。
   （7）元模型。模型是实体存在的抽象，模型的组成来自于实体存在的概念和彼此建立的关系。组成模型的最小集又可以被认为是元模型。从本体的“组织知识的知识”(构件知识)上讲，本体是一种元模型。
   （8）内容的理论。从问题求解的数据结构、数据处理和数据视图三阶段划分来看，本体是研究数据结构或系统内容的理论。

对以上本体的作用可以归纳为以下几点：
   (1)支持知识交流
   本体的分析澄清了领域知识的结构，从而为知识表示打好基础。本体可以重用，从而避免重复的领域知识分析。通过构建一个统一框架或者一个规范模型来减少概念和术语上的差异，使得工作在不同领域之中或者应用不同操作平台的人员之间信息的共享和交换成为可能。
   (2)支持不同系统之间的互操作
   在不同的建模方法、范式、语言和软件工具之间进行翻译和映射，以实现不同系统之间的互操作和集成。这种应用可细分为两类：低概念化本体和高概念化本体。前者只要求操作者使用相同的词汇，但不能够保证他们对于同一词汇(或者知识)有相同的解释或是理解，这种应用中本体一般不包含有语义信息。后者本体是一种对知识表示语言中的构建和约束作一般化的语义解释，目的就是实现使用者之间进行语义层次上的知识的共享和互操作。
   (3)提高信息化的实施效率和质量
   本体的制造企业知识集成技术的研究在软件系统的设计以及实现过程中，采用基于本体的方法有很多好处。利用本体对需求解决的问题和任务进行规范描述，可以提高需求分析、信息获取的效率，节约成本。同时，利用本体的概念化的表达可以实现对信息(或者知识)的一致性进行自动或者半自动的检查，从而提高了系统的可靠性。另外，本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件。
   以上摘自《百度_本体吧http://tieba.baidu.com/f?kz=515175255》

   很多人工产品都有很强的Ontology的味道，比如：术语表、术语学、字典、百科全书、知识库、数据库模式。
   本体目前的应用领域包括（但不仅限于）：人工智能、语义网、软件工程、生物医学信息学、图书馆学以及信息架构。

3.本体构成要素
    Perez 等人认为Ontology 可以按分类法来组织，他归纳出Ontology 包含5 个基本的建模元语(Modeling Primitive) 。这些元语分别为：类(classes) ，关系(relations) ，函数(functions) ，公理(axioms) 和实例(instances) 。通常也把classes 写成concepts。

类:集合（sets）、概念、对象类型或者说事物的种类。

关系: 关系代表了在领域中类之间的交互作用。形式上定义为n 维笛卡儿乘积的子集： R ： C1 ×C2×⋯×Cn 。

如：子类关系( subclass-of) 。

函数：函数是一类特殊的关系。在这种关系中前n - 1 个元素可以惟一决定第n 个元素。形式化的定义如下： F ： C1 ×C2 ×⋯×Cn-1→Cn 。

例如Mother-of 关系就是一个函数，其中Mother-of ( x ， y) 表示y 是x 的母亲，显然x 可以惟一确定他的母亲y 。

公理：公理代表永真断言，比如概念乙属于概念甲的范围。

实例：实例代表元素。

从语义上分析，实例表示的就是对象，而类表示的则是对象的集合，关系对应于对象元组的集合。

类的基本的关系有4 种：part-of ，kind-of ，instance-of 和attribute-of 。

在实际的应用中，不一定要严格地按照上述5 类元语来构造Ontology。同时概念之间的关系也不仅限于上面列出的4 种基本关系，可以根据特定领域的具体情况定义相应的关系，以满足应用的需要。
   以上摘自《2003_北大_李芸_Ontology研究综述》、《 wiki_本体论》

4.本体分类
根据本体不同方面的属性（如形式化程度、目的和描述对象），可以对本体进行不同的分类。
   如根据本体的形式化程度不同，可以把本体分为高度非形式化的（highly informal）、结构非形式化的（structured-informal）、半形式化的（semi-formal）和严格形式化的（rigorously formal）。
   根据本体的描述对象不同，可以把本体分为特殊领域本体（如医药、地理、金融等）、一般世界知识本体、问题求解本体和知识表示语言本体等。
   由于本体的分类方法很多，目前还没有能够被广泛接受的分类标准。但以下几个概念的定义意义明确，并从某种程度上提供了本体的分类方法：
    领域本体（domain ontology或者说domain-specific ontology，即基于领域描述的本体）所建模的是某个特定领域，或者现实世界的一部分。领域本体所表达的是那些适合于该领域的那些术语的特殊含义。例如，就拿具有许多种含义的英文单词“card”来说。关于扑克领域的本体可能会赋予该词以“打扑克”的意思，而关于计算机硬件领域的本体则可能会赋予其“穿孔卡片”和“视频卡”的意思。
   问题求解模型（PROBLEM SOLVING MODEL）：以问题求解方法为描述对象的本体。
   表示本体（REPRESENTATION ONTOLOGY）：以知识表示语言为描述对象的本体。在表示本体中，类、对象、关系、属性、槽等术语经过严谨的分析和定义。
    以上摘自《综述：本体的概念、方法和应用》

   有人还提出了可分为领域本体和上层本体。
   上层本体（upper ontology或者说foundation ontology，即基础本体）是指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型。其中所收录的核心词表，可以用来描述一套领域当中的对象。目前，存在着几部现成可用的标准化上层本体，包括都柏林核心、通用形式化本体（General Formal Ontology，GFO）、OpenCyc/ResearchCyc、推荐上层合并本体（Suggested Upper Merged Ontology，SUMO）以及DOLCE。另外，有些人认为WordNet属于上层本体，但实际上它并不是一部本体：WordNet只是由一部分类法（taxonomy）与一部受控词表所形成的独特组合（参见上述关于“属性”方面的内容）。
   以上摘自《 wiki_本体论》

5.本体语言
   目前的领域知识表达采用谓词逻辑（predicate calculus）作为基本的形式化方法（加上type-of关系表达类的继承关系），情景逻辑（situational calculus）是谓词逻辑的变种，它引入时间的概念来表达状态、事件和过程。如果我们把图像和其它感觉形式也包括到知识范畴中来，就需要非常不同的表达方式。但是目前，谓词逻辑为本体共享技术开了一个好头。
    以上摘自《综述：本体的概念、方法和应用》

   本体语言使得用户为领域模型编写清晰的、形式化的概念描述，因此它应该满足以下要求：
        良好定义的语法（a well-defined syntax）
        良好定义的语义（a well-defined semantics）
        有效的推理支持（efficient reasoning support）
        充分的表达能力（sufficient expressive power）
        表达的方便性（convenience of expression）
   大量的研究工作者活跃在该领域，因此诞生了许多种本体描述语言，有RDF和RDF-S、OIL、DAML、OWL（注：DAML+OIL不再单独列出，认为它是一个过渡，直接介绍OWL）、KIF、SHOE、XOL、OCML、Ontolingua、CycL、Loom。我们简单把它们归类如下：
   和Web相关的有：RDF和RDF-S、OIL、DAML、OWL、SHOE、XOL。其中RDF和RDF-S、OIL、DAML、OWL、XOL之间有着密切的联系，是W3C的本体语言栈中的不同层次，也都是基于XML的。而SHOE是基于HTML的，在HTML的一个扩展。
   和具体系统相关的（基本只在相关项目中使用的）有：Ontolingua、CycL、Loom。
   KIF已经是美国国家标准，但是它并没有被广泛应用于互联网，作为一种交换格式更多的应用于企业级。
   下面我们逐一进行介绍。

1.RDF、RDF-S
   Resource Description Framework，资源描述框架，是W3C在XML的基础上推荐的一种标准，用于表示任何的资源信息。RDF提出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示Web上的资源，弧用来表示这些资源的属性。因此，这个数据模型可以方便的描述对象（或者资源）以及它们之间关系。RDF的数据模型实质上是一种二元关系的表达，由于任何复杂的关系都可以分解为多个简单的二元关系，因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。W3C推荐以RDF标准来解决XML的语义局限。
   RDF和XML是互为补充的。首先，RDF希望以一种标准化，互操作的方式来规范XML的语义。XML文档可以通过简单的方式实现对RDF的引用。其次，由于RDF是以一种建模的方式来描述数据语义的，这使得RDF可以不受具体语法表示的限制。但是RDF仍然需要一种合适的语法格式来实现RDF在Web上的应用。将RDF序列化为XML表示可以使RDF获得更好的应用可处理特性，并使得RDF数据可以像XML数据一样的容易使用、传输和存储。
   因此，RDF是定制XML的良伴，而不只是对某个特定类型数据的规范表示，XML和RDF的结合，不仅可以实现数据基于语义的描述，也充分发挥了XML与RDF的各自优点，便于Web数据的检索和相关知识的发现。
   与XML中的标记（tags）类似，RDF中的属性（properties）集也是没有任何限制的。也就是说存在同义词现象和一词多意现象。RDF的模型不具备解决这两个问题的能力，而RDF Schema虽然可以为RDF资源的的属性和类型提供词汇表，但是基于RDF的数据语义描述仍然可能存在语义冲突。为了消解语义冲突，我们在描述数据语义的时候可以通过引用Ontology的相关技术，对语义描述结果作进一步的约束。幸运的是，RDF(Schema)在提供了简单的机器可理解语义模型的同时，为领域化的Ontology语言（OIL，OWL）提供了建模基础，并使得基于RDF的应用可以方便地与这些Ontology语言所生成的 Ontology进行合并。RDF的这一特性使得基于RDF的语义描述结果具备了可以和更多的领域知识进行交互的能力，也使基于XML和RDF的Web数据描述具备了良好的生命力。
2.OIL
   Ontology Inference Layer/Ontology Interchange Language。OIL是一种针对本体的基于互联网的表现和推理层。它是由the European Union IST programme for Information Society Technologies under the On-To-Knowledge project (IST-1999-1013) and IBROW (IST-1999-19005)资助的，也得到了更广泛的研究者的参与。
   OIL综合了三个不同团体的工作，提供一种通用的语义互联网的标记语言。这三方面的工作分别是：
   基于框架的系统:基于框架的语言在AI中有很长的历史，它们的中心建模元语是类（称作框架）和属性（称为槽）。
   描述逻辑:描述逻辑通过概念（对应于类或者框架）和角色（对应于槽）描述知识。DL的一个重要特征是它们具有良好理解理论性质，并且在DL中任何表达的含义都可以通过数学的精确的方式描述。OIL从DL中继承了形式化语义和有效的推理支持。
   互联网标准:这里指的是XML和RDF。OIL标记语言的语法源自W3C的这些标准

   OIL 的使用比较广泛，支持OIL的工具也很多，最著名的有OILEd，是一个基于OIL的本体编辑器。其他一些工具，比如OntoEdit、the FaCT (Fast Classification of Terminologies) System等也都支持OIL。

3.DAML
    DARPA Agent Markup Language，该项目正式开始于2000年8月，由美国政府支持，目标是开发一种语言和一组工具，为语义互联网提供支持。Mark Greaves是该项目的领导者。DAML形成于DAML-ONT(一种本体语言)和DAML-Logic(一种表达公理和规则的语言)。
DAML 提出的原因和OIL类似，一批支持语义互联网的研究者发现XML、RDF作为模式语言其表达能力很有限，希望开发一种有更强的表达能力的模式语言。尽管 DAML并不是W3C的标准，但是参与的开发者中有很多来自W3C的工作者，包括Tim Berners-Lee。
   DAML扩展了RDF，增加了更多的更复杂的类、属性等定义。它一度很流行，成为网上很多本体的描述语言，直到DAML的研究者和OIL的研究者开始合作，推出了DAML+OIL语言，成为W3C研究语言互联网的本体语言的起点。

4.OWL
   OWL 全称Web Ontology Language，是W3C推荐的语义互联网中本体描述语言的标准。它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起来的，其中 DAML来自美国的提案DAML-ONT，OIL来自欧洲的一种本体描述语言（二者在上文都有介绍）。在W3C提出的本体语言栈中，OWL处于最上层，见下图。

针对不同的需求OWL有三个子语言，描述列表如下：
子语言描述例子
   OWL Lite用于提供给那些只需要一个分类层次和简单的属性约束的用户。支持基数（cardinality），只允许基数为0或1。
   OWL DL支持那些需要在推理系统上进行最大程度表达的用户，这里的推理系统能够保证计算完全性（computational completeness，即所有地结论都能够保证被计算出来）和可决定性（decidability，即所有的计算都在有限的时间内完成）。它包括了 OWL语言的所有约束，但是可以被仅仅置于特定的约束下。当一个类可以是多个类的一个子类时，它被约束不能是另外一个类的实例。
   OWL Full支持那些需要在没有计算保证的语法自由的RDF上进行最大程度表达的用户。它允许在一个Ontology在预定义的（RDF、OWL）词汇表上增加词汇，从而任何推理软件均不能支持OWL FULL的所有feature。一个类可以被同时表达为许多个体的一个集合以及这个集合中的一个个体。

这三种子语言之间的关系是：
   每个合法的OWL Lite都是一个合法的OWL DL；
   每个合法的OWL DL都是一个合法的OWL Full；
   每个有效的OWL Lite结论都是一个有效的OWL DL结论；
   每个有效的OWL DL结论都是一个有效的OWL Full结论。

用户在选择使用哪种语言时的主要考虑是：
   选择OWL Lite还是OWL DL主要取决于用户需要整个语言在多大程度上给出了约束的可表达性；
   选择OWL DL还是OWL Full主要取决于用户在多大程度上需要RDF的元模型机制（如定义类型的类型以及为类型赋予属性）；
   在使用OWL Full而不是OWL DL时，推理的支持不可预测，因为目前还没有完全的OWL Full的实现。

这三种子语言与RDF的关系是：
   OWL Full可以看成是RDF的扩展；
   OWL Lite和OWL Full可以看成是一个约束化的RDF的扩展；
   所有的OWL文档（Lite，DL，Full）都是一个RDF文档；
   所有的RDF文档都是一个OWL Full文档；
   只有一些RDF文档是一个合法的OWL Lite和OWL DL文。

5.KIF
   Knowledge Interchange format (KIF) 是一种为了在不同的计算机系统（这里的不同是指由不同的程序员在不同的时间使用不同的语言开发等）之间交换知识而设计的语言。它的主要目的不是和人交互，也不是在一个计算机系统内部作为知识的表现方式，只有在不同的计算机系统之间需要交换知识的时候，它们把各自的内部表现方式转换成KIF，交互后再转换成各自的方式。它是由斯坦福大学的The Logic Group提出并实现的，是一种美国标准（ANSI）。
在KIF的设计中，以下特征是其本质特性：
   有公开的语义。它不再需要专门的解释器。
   在逻辑上是全面的。可以对任意的逻辑语句进行表达。
   提供对元知识的表现

   除了这几个本质特征以外，KIF还尽量的最大化实现能力和可读性。

6.SHOE
   全称：Simple HTML Ontology Extensions，简单HTML的本体扩展。这是一种与XML一致的互联网知识表达语言，使得网页编辑者可以对他们的互联网文档进行标注。由马里兰大学计算机系提出的，但是目前他们有关本体的研究项目已经使用OWL和DAML+OIL作为互联网本体的描述语言，SHOE已经停止研究了。
   SHOE是HTML的一个超集，它扩展了一些标记，使得在HTML中可以增加任意的语义数据。它的标记有两类，一类用于创建本体，一类用于注解文档。

7.XOL
   Ontology Exchange Language，本体交换语言。源于SRI International's Artificial Intelligence Center (AIC)的Bioinformatics Research Group。XOL设计之初是为生物信息学领域本体的交换，但是它可以应用于各种领域。它是一种简单通用的定义本体的方法。基于XML和RDF Schema有两种变体。其目的是在不同的数据库、本体开发工具、或者其他应用程序之间交换本体。

8.OCML
   Operational Conceptual Modelling Language，是由英国的Knowledge Media Institute实验室开发的。OCML建模语言通过几种具体的构件（Functional terms、Control terms、Logical expressions）来支持知识模型的建模架构。该语言使得对函数、关系、类、实例和规则的形式化操作成为可能。它还包括定义本体及问题解决方法的机制。KMI的WebOnto编辑器是基于OCML的。

9.Ontolingua
   一种基于KIF（knowledge interchange format）的提供统一的规范格式来构建Ontology的语言。其特点是：为构造和维护Ontology提供了统一的、计算机可读的方式；由其构造的 Ontology可以方便地转换到各种知识表示和推理系统（Prolog、CORBA的IDL、CLIPS、LOOM、Epikit、Algernon和 KIF），从而将Ontology的维护与使用它的目标系统隔开；主要用于Ontology服务器。

10.CycL
   Cyc系统的描述语言，一种体系庞大而非常灵活的知识描述语言。其特点是：在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能；具备一些二阶谓词演算的能力；其语言环境中配有功能很强的可进行推理的推理机。

11.loom
    Ontosaurus描述语言，一种基于一阶谓词逻辑的高级编程语言，属于描述逻辑体系。其特点是：提供表达能力强、声明性的规范说明语言；提供强大的演绎推理能力；提供多种编程风格和知识库服务。该语言后来发展成为PowerLoom语言。PowerLoom是KIF的变体，它是基于逻辑的，具备很强表达能力的描述语言，采用前后链规则（backward and forward chainer）作为推理机制。

   在选择本体描述语言时，我们的基本认识是向标准看齐，并且我们项目的应用领域也是基于Web信息服务，因此，OWL很自然的成为首选。
   以上摘自《本体概念、描述语言和方法论方面的综述.doc》

6.构造Ontology 的规则
   目前已有的Ontologies 很多，出于对各自问题域和具体工程的考虑，构造Ontologies 的过程也是各不相同的。由于没有一个标准的Ontology 构造方法，不少研究人员出于指导人们构造Ontologies 的目的，从实践出发，提出了不少有益于构造Ontology 的标准，其中最有影响的是Gruber 于1995 年在文献[17 ]中提出的5 条规则：
   –明确性和客观性：即Ontology 应该用自然语言对所定义术语给出明确的、客观的语义定义。
   –完全性：即所给出的定义是完整的，完全能表达所描述术语的含义。
   –一致性：即由术语得出的推论与术语本身的含义是相容的，不会产生矛盾。
   –最大单调可扩展性：即向Ontology 中添加通用或专用的术语时，不需要修改其已有的内容。
   –最小承诺：即对待建模对象给出尽可能少的约束。

7.本体在信息检索的应用
   Ontology 在信息检索技术可分为3类
      全文检索(Text retrieval)
      数据检索(Data retrieval)
      知识检索(Knowledge retrieval)
    全文检索的特点是把用户的查询请求和全文中的每一个词进行比较，不考虑查询请求与文件语义上的匹配，这种方式虽然可以保证查全率，但是查准率却大大地降低了。
    数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式，具有一定的结构，允许对特定的字段检索(例如：作者=“王刚”) 。数据检索需要有标识字段的方法。数据检索的性能取决于所使用的标识字段的方法和用户对这种方法的理解，因此具有很大的局限性。数据检索支持语义匹配的能力也较差。
   知识检索强调的是基于知识的、语义上的匹配，因此在查准率和查全率上有更好的保证。目前知识检索是信息检索研究的重点，特别是面向Web 信息的知识检索。

基于Ontology 的信息检索的基本设计思想
(1) 在领域专家的帮助下，建立相关领域的Ontology。
(2) 收集信息源中的数据，并参照已建立的Ontology ，把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等) 中。
(3) 对用户检索界面获取的查询请求，查询转换器按照Ontology 把查询请求转换成规定的格式，在Ontology 的帮助下从元数据库中匹配出符合条件的数据集合。
(4) 检索的结果经过定制处理后，返回给用户。

    目前Ontology 应用在信息检索中的著名项目包括(Onto)2 Agent 、Ontobroker和SKC 。这3个项目也分别代表了3 个方向。
   (Onto) 2 Agent 的目的是为了帮助用户检索到所需要的WWW上已有的Ontology ，主要采用了参照Ontology。参照Ontology 是以WWW上已有的Ontology 为对象建立起来的Ontology ，它保存有各类Ontology 的元数据。
   Ontobroker 面向的是WWW上的网页资源，目的是为用户检索到所需要的网页，这些网页含有用户所关心的内容。
   SKC 是一个正在进行的项目，其目标是解决信息系统语义异构的问题，实现异构的自治系统之间的互操作。该项目希望通过在Ontology 上建立一个代数系统，用这个代数系统来实现各Ontology 之间的互操作，从而实现异构系统之间的互操作。
    以上摘自《2003_北大_李芸_Ontology研究综述》

8.本体研究现状
1.领域本体研究
1.1 CYC
   CYC是位于美国德州奥斯汀的MCC (Microelectronics and Computer Technology Corporation)公司的研究项目，其目的是通过本体开发为常识推理（common sense reasoning）提供基础。
   CYC中的知识用一阶谓词逻辑的变种CYCL表达。知识库中包含简单的声明、推理规则、推理控制规则。在知识库的基础上，可以使用推理机产生新的推断。
   CYC本体按照模块（module）组织，称为微理论（microtheories）。每个微理论包括某一特定领域知识和推理所需的概念，如空间、时间、因果、智能体等。某一领域本体可能包括多个微理论，以反映该领域建模的不同侧面和前提。在这个意义上，CYC不是一体的集成本体，而是一个微理论的网络，该网络的并集为若干领域提供本体约定。

1.2 TOVE
   TOVE (TOronto Virtual Enterprise)是加拿大多伦多大学的研究项目，其目的是构造企业本体，并具有以下特征：
   1)为企业的应用软件提供共享的术语；
   2)用一阶谓词逻辑为每个术语定义尽可能精确的含义；
   3)用一组Prolog公理来实现本体语义约束，使TOVE能够自动的对与企业有关的常识性问题进行演绎推理；
   4)定义一套符号，对术语和概念进行图形化的描述。
   TOVE本体包括活动、组织、资源、产品、成本和质量等部分，它们组成了集成的企业模型。

1.3 Enterprise
   Enterprise项目是英国爱丁堡大学人工智能应用研究所（AIAI: Artificial Intelligence Application Institute）的研究项目。其目的是通过一个集成框架，集成企业建模的方法和工具，以改进和代替现有的建模方法。该集成框架以企业建模本体为基础。通过提供一组工具，可以辅助用户进行企业建模和分析，
具体内容包括：
   1)对于企业模型的捕获和描述；
   2) 描述经营问题和需求；
   3)在战略、战术和操作层次上，确定和评估解决问题的方法以及系统的设计和实现；
   4)对相关的度量体系进行表示，并支持高级仿真。

企业本体由以下部分构成：
   元本体：实体，关系，角色，行动者，事件状态
   活动和过程：活动，资源，计划，能力
   组织：组织单元，合法实体，管理，所有权
   策略：目的，策略，有助于实现，假设
   营销：销售，产品，零售商，客户，市场

1.4 KACTUS
   KACTUS是欧洲ESPRIT项目。其目的是开发出技术系统全生命周期的知识重用方法学，以便在设计、诊断、操作、维护、再设计和培训时使用同一知识库。通过构造支持产品知识重用的本体，KACTUS能够支持计算机集成制造方法和知识工程方法的集成。另外，KACTUS还试图将本体同现有标准（如STEP）进行集成。
   KACTUS的主要表达方法是CML（概念建模语言：Conceptual Modelling Language）。与其它的本体表达方法不同，CML在领域知识、推理知识、任务知识和问题求解知识之间作了区分。
   KACTUS还提供了交互式的环境，支持本体的浏览、编辑和管理。除了CML以外，KACTUS工具还提供了对EXPRESS和Ontolingua的支持。

2 表示本体和问题求解模型
2.1 KSL Knowledge Sharing Effort
   Knowledge Sharing Effort是美国DARPA项目，主要由斯坦福大学知识系统实验室承担。其目的是使得知识系统的开发者能够从可重用的模块库中选择构件，进行装配，形成所需的新系统。该项目分为四部分内容：
   1)不同语言表示的知识库之间的翻译机制（KIF: Knowledge Interchange Format）；
   2)在一族表达范式之间建立共同的语言版本和推理模块；
   3)基于知识的系统之间的通讯协议（KQML: Knowledge Query and Manipulation Language）；
   4)本体库，即为构造领域知识库而预置的基础。KIF是一种中性语言，能够表示目前高级知识表示语言中几乎所有重要的概念和区别。
   为了解决本体表示不统一的问题，他们还开发了基于Web的Ontolingua系统。Ontolingua是独立于特定表示系统的本体定义机制，它允许用KIF定义类、关系和对象，并能将这些定义翻译成几种特定的表示语言。Ontolingua还进一步定义了框架本体（表示本体），来支持本体的移植。

2.2 Guarino对于本体的研究
   Guarino是意大利帕多瓦大学LADSEB- CNR（Institute for Systems Theory and Biomedical Engineering）的高级研究员。他分析总结了本体及相关概念的含义，提出了“本体层”的概念[17]，研究了表示本体的本体约定，并探索了本体在物理对象、STEP语义方面的应用，具有重要的参考价值。

3.2.3 CommonKADS
   CommonKADS是欧洲ESPRIT项目，它在问题求解模型研究方面有重要作用。它定义了技能模型（Model of Expertise）、解释模型（Interpretation Model）和任务模型（Task Model）等重要概念。技能模型包括启发式模型（基于规则的求解模型）、深度模型（基于功能和结构信息的求解模型）、隐含模型（基于连接主义方法的求解模型）、能力模型（与表示语言独立的对于技能的高层描述）、分布式模型（Multi-agent问题求解系统）等。解释模型是对问题求解方法的描述。任务模型是对问题求解过程控制结构的描述。

3本体与标准之间的集成
   本体的开发可以使得不同工具之间的表示标准化，目前有几个项目正在进行这方面的工作。如工作流管理同盟、STEP和EXPRESS、CORBA和KIF等。
   工作流管理同盟（Workflow Management Coalition）定义了一组词汇，包括定义、使用、同义词等。这些词汇作为半形式化的本体进行共享。另外，MIT、斯坦福大学、多伦多大学、爱丁堡大学等还联合开发了PIF（Process Interchange Fromat），来支持不同软件系统之间的过程数据交换。
   STEP (Standard for the Exchange of Product Model Data)是进行产品定义和描述的中性语言，其目的是在不同的应用之间进行信息交换和互操作。STEP使用EXPRESS作为建模语言，但EXPRESS 并不能完全解决产品建模的语义问题，参考文献中对此问题进行了基于本体的初步探讨。
   CORBA (the Common Object Request Broker Architecture)标准的出现是为了解决分布式环境下的对象互操作问题。它使用IDL（Interface Definition Language：接口定义语言）来定义远程对象间进行互操作的接口。KSL的Ontolingua服务提供了IDL和Ontolingua之间的翻译。 CORBA定义了对象模型，对象的实现提供了对象的语义。业务对象管理组（Business Object Management group）还提供了词汇表，这些都可以看作本体的雏形。
   KIF和概念图（conceptual graphs）都是用来表示本体的语言，它们都基于一阶谓词逻辑，但细节上有所不同。目前正在开发系统，实现两者之间的翻译和映射。
    以上摘自《综述：本体的概念、方法和应用》

总结：
(1)本体的具体清晰的解释
   目前公认的是
   1998/Studer ：共享概念模型的明确的形式化规范说明
　　包括四个主要方面：
　　1. 概念化（conceptualization）：客观世界的现象的抽象模型；
　　2. 明确（explicit）：概念及它们之间联系都被精确定义；
　　3. 形式化（formal）：精确的数学描述；
　　4. 共享（share）：本体中反映的知识是其使用者共同认可的。
   这段话具体形象的说明了本体到底是什么，用来干什么。
(2)什么是概念
   概念是意义的载体。一个单一的概念可以用任何数目的语言来表达；术语则是概念的表达形式。狗的概念可以表达为德语的 Hund，法语的 chien 和西班牙语的 perro。概念在一定意义上独立于语言的事实使得翻译成为可能 - 在各种语言中词有同一的意义，因为它们表达了相同的概念。
   概念是人类对一个复杂的过程或事物的理解。从哲学的观念来说概念是思维的基本单位。在日常用语中人们往往将概念与一个词或一个名词（术语）同等对待。
   概念内容（内涵）包括所有一个组成该概念的事物的特性和关系。比如“饲养技术”的内容包括所有有关于这个技术的特性。但在定义这个概念时人们挑选出这些特性中最关键的，比如：“饲养技术是繁殖、喂养、圈养和使用农业用动物和以此提取有价值的产品的技术”。
   中华人民共和国国家标准GB／T 15237．1—2000：“概念”是对特征的独特组合而形成的知识单元。

(3)本体构成要素
   本体基本要素为：类/概念(classes) ，关系(relations) ，函数(functions) ，公理(axioms) 和实例(instances)
   基本关系有4 种：part-of ，kind-of ，instance-of 和attribute-of

(4)本体语言
   本体语言目前成为标准的是OWL
   具备较强推理能力的是Cyc和loom
   这三个本体语言值得关注

原文出处：http://blog.chinaunix.net/uid-122937-id-142852.html

猜你喜欢