Context-Aware Basic Level Concepts Detection in Folksonomies【论文笔记】

一、概要

这篇论文讨论了在 folksonomies中探索隐含语义的问题。在 folksonomies中，用户创建和管理标签来标注web资源。用户创建的标签的集合是潜在的语义资源。做了大量研究来抽取概念，甚至概念层次 (本体)，这是知识表示的重要组成部分。没有用于发现人类可接受和令人满意的概念的度量标准，因此通过现有方法从 folksonomies中抽取概念对人类使用来说并不自然。在认知心理学中，有一系列概念被称为基本概念（basic level concept），人们经常在日常生活使用它们，大多数人类知识是由基本概念组织的。因此，从 folksonomies 中抽取基本概念对于分类和组织web资源比在其它粒度中抽取概念更有意义。此外，context在基本概念中起着重要作用，因为同一域中的基本概念在不同的context中变得不同。作者在这篇论文提出一个方法在不同的context中检测基本概念。使用 Open Directory Project（ODP）作为基准，作者证明了context存在的影响和方法的有效性。

二、介绍

最近，folksonomies 已经成为社会标注系统的一部分，比如social bookmarking，photograph annotation，给人们提供了用户友好的接口来自由标注web资源，用户可以共享标注信息。这些标注作为 folksonomies 的标签，提供了用户创建元数据的潜在来源。从这些标签中抽取概念可以直接表示用户关于应如何表述web资源的意见。

心理学家发现，有一类名为basic level categories代表了最 “自然” 的水平，既不太一般，也不太具体。人们更喜欢使用从这些类别构建的基本概念，这些概念是儿童首先命名和理解的概念。比如，当人们看见 ‘car‘，尽管我们也可以称为 ’vehicle‘或’sedan‘，但大多数人称为’car‘。大多数人类知识都是由基本概念组织的。因此，从 folksonomies 中抽取基本概念对于分类和组织web资源比在其它粒度中抽取概念更有意义。此外，context在基本概念中起着重要作用，因为同一域中的基本概念在不同的context中变得不同。在检测基本概念是需要考虑到context。

作者提出了contextual category utility来发现基本概念。基于contextual category utility，作者提出了一种在不同context中检测基本概念的方法。据作者所知，这是从folksonomies 中检测不同context的基本概念的第一项工作。作者使用实际数据集进行实验来评估方法，并将检测到的概念与ODP概念进行比较。实验结果表明，作者的方法可以有效地检测不同context中的基本概念。这些基本概念与人类思维相比，与方法所确定的概念更为一致。

三、Preliminaries

1. Folksonomy

在 Folksonomy中，用户由用户ID描述，标签是任意字符串。

2. Basic Level Categories (Concepts) and Category Utility

在认知心理学中，在诸如植物分类的分层类别结构中，存在一个级别，其被称为基本级别，

在该级别上，类别是认知基础的。基本级别携带最多信息，并且彼此之间的差异最大。在心理学中，概念通常包含一类实例的共同特征，并且是该类别的抽象概念。basic level categories 和 basic level concepts 的区别？

为了表征 basic level categories ，心理学家给出了名为 category utility 的度量。他们证明基本级别类别的特征是它们具有最高的类别效用。它提供了一种规范的信息理论衡量标准，用于掌握具有给定类别结构知识的人对不具备这种知识的人所获得的预测优势：

其中C是类别的集合，F是特征集，fi是一个特征， $p(f_{i}|c_{k})$ 是类别为 $c_{k}$ 拥有特征 $f_{i}$ 的概率， $p(c_{k})$ 是实例属于类别 $c_{k}$ 的概率。 $p(f_{i})$ 是一个实例拥有特征 $f_{i}$ 的概率，n是特征总数，m是类别总数。

3.Contexts and Context Effect

context是指发生事件或动作的一般条件。任何正在考虑的事物的背景都包括与之相关的思

想，情境，判断和知识。心理学家认为，术语“情境效应”用于指上下文在不同认知任务中的影

响。

四、Detecting Context-Aware Basic Level Concepts

1.动机

没有用于发现人类可接受和令人满意的概念的度量标准，因此通过现有方法从 folksonomies

中抽取概念对人类使用来说并不自然。受到认知心理学的启发，我们尝试在 folksonomies 中对人

类认知过程进行建模，以便我们可以探索隐含语义并构建更多人类可接受和适用的概念。上下文

在概念学习中起着重要作用。因此，我们对 folksonomies 中的实例，概念和上下文进行建模，并

提出了一种上下文感知方法来检测 folksonomies 中的基本概念。

2.实例和概念建模

标签是由用户给出来标注一个资源并描述其特征。被标记的资源视为实例。每个资源由标签

描述，因此可以将标签作为实例的属性。实例的定义如下：

其中，n是资源 $r_{i}$ 唯一标签数， $v_{i,k}$ 是资源 $r_{i}$ 的标签 $t_{i,k}$ 的值， $v_{i,k}$ 决定了标签 $t_{i,k}$ 对资源 $r_{i}$ 的重要程度。很多用户用一个标签来标记资源，那么这个标签是很重要的，可以描述这个资源。 $t_{i,k}$ 的权重可以定义为 $v_{i,k} = N_{t_{i,k}} / N_{r_{i}}$ ， $N_{t_{i,k}}$ 是用户使用标签 $t_{i,k}$ 来标记资源 $r_{i}$ 的数量， $N_{r_{i}}$ 是资源 $r_{i}$ 的全部标签数。