Context-Aware Basic Level Concepts Detection in Folksonomies【论文笔记】

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_32782771/article/details/82709218

一、概要

这篇论文讨论了在 folksonomies中探索隐含语义的问题。在 folksonomies中,用户创建和管理标签来标注web资源。用户创建的标签的集合是潜在的语义资源。做了大量研究来抽取概念,甚至概念层次 (本体),这是知识表示的重要组成部分。没有用于发现人类可接受和令人满意的概念的度量标准,因此通过现有方法从 folksonomies中抽取概念对人类使用来说并不自然。在认知心理学中,有一系列概念被称为基本概念(basic level concept),人们经常在日常生活使用它们,大多数人类知识是由基本概念组织的。因此,从 folksonomies 中抽取基本概念对于分类和组织web资源比在其它粒度中抽取概念更有意义。此外,context在基本概念中起着重要作用,因为同一域中的基本概念在不同的context中变得不同。作者在这篇论文提出一个方法在不同的context中检测基本概念。使用 Open Directory Project(ODP)作为基准,作者证明了context存在的影响和方法的有效性。

二、介绍

最近,folksonomies 已经成为社会标注系统的一部分,比如social bookmarking,photograph annotation,给人们提供了用户友好的接口来自由标注web资源,用户可以共享标注信息。这些标注作为 folksonomies 的标签,提供了用户创建元数据的潜在来源。从这些标签中抽取概念可以直接表示用户关于应如何表述web资源的意见。

心理学家发现,有一类名为basic level categories代表了最 “自然” 的水平,既不太一般,也不太具体。人们更喜欢使用从这些类别构建的基本概念,这些概念是儿童首先命名和理解的概念。比如,当人们看见 ‘car‘,尽管我们也可以称为 ’vehicle‘或’sedan‘,但大多数人称为’car‘。大多数人类知识都是由基本概念组织的。因此,从 folksonomies 中抽取基本概念对于分类和组织web资源比在其它粒度中抽取概念更有意义。此外,context在基本概念中起着重要作用,因为同一域中的基本概念在不同的context中变得不同。在检测基本概念是需要考虑到context。

作者提出了contextual category utility来发现基本概念。基于contextual category utility,作者提出了一种在不同context中检测基本概念的方法。 据作者所知,这是从folksonomies 中检测不同context的基本概念的第一项工作。 作者使用实际数据集进行实验来评估方法,并将检测到的概念与ODP概念进行比较。 实验结果表明,作者的方法可以有效地检测不同context中的基本概念。 这些基本概念与人类思维相比,与方法所确定的概念更为一致。

三、Preliminaries

1. Folksonomy

在 Folksonomy中,用户由用户ID描述,标签是任意字符串。

2. Basic Level Categories (Concepts) and Category Utility

在认知心理学中,在诸如植物分类的分层类别结构中,存在一个级别,其被称为基本级别,

在该级别上,类别是认知基础的。基本级别携带最多信息,并且彼此之间的差异最大。在心理学中,概念通常包含一类实例的共同特征,并且是该类别的抽象概念。basic level categories 和 basic level concepts 的区别?

为了表征 basic level categories ,心理学家给出了名为 category utility 的度量。他们证明基本级别类别的特征是它们具有最高的类别效用。它提供了一种规范的信息理论衡量标准,用于掌握具有给定类别结构知识的人对不具备这种知识的人所获得的预测优势:

其中C是类别的集合,F是特征集,fi是一个特征,p(f_{i}|c_{k}) 是类别为c_{k}拥有特征f_{i}的概率,p(c_{k})是实例属于类别c_{k}的概率。p(f_{i})是一个实例拥有特征f_{i}的概率,n是特征总数,m是类别总数。

3.Contexts and Context Effect

context是指发生事件或动作的一般条件。任何正在考虑的事物的背景都包括与之相关的思

想,情境,判断和知识。心理学家认为,术语“情境效应”用于指上下文在不同认知任务中的影

响。

四、Detecting Context-Aware Basic Level Concepts

1.动机

没有用于发现人类可接受和令人满意的概念的度量标准,因此通过现有方法从 folksonomies

中抽取概念对人类使用来说并不自然。受到认知心理学的启发,我们尝试在 folksonomies 中对人

类认知过程进行建模,以便我们可以探索隐含语义并构建更多人类可接受和适用的概念。上下文

在概念学习中起着重要作用。因此,我们对 folksonomies 中的实例,概念和上下文进行建模,并

提出了一种上下文感知方法来检测 folksonomies 中的基本概念。

2.实例和概念建模

标签是由用户给出来标注一个资源并描述其特征。被标记的资源视为实例。每个资源由标签

描述,因此可以将标签作为实例的属性。实例的定义如下:

其中,n是资源 r_{i}唯一标签数,v_{i,k}是资源 r_{i} 的标签t_{i,k} 的值,v_{i,k}决定了标签t_{i,k} 对资源 r_{i}的重要程度。很多用户用一个标签来标记资源,那么这个标签是很重要的,可以描述这个资源。t_{i,k} 的权重可以定义为v_{i,k} = N_{t_{i,k}} / N_{r_{i}}N_{t_{i,k}}是用户使用标签t_{i,k}来标记资源r_{i}的数量,N_{r_{i}}是资源r_{i}的全部标签数。

概念是一类实例的抽象,并包含它们的共同属性,我们通过提取一类实例的共同标签来构建一个概念。这些共同标签视为概念的属性。这些标签的权重是该类别的均值。概念的定义如下:

3. 上下文建模

具有不同领域知识的人对基本水平有不同的考虑。 领域知识对基本级别所在的位置有影响。

这种不同视为上下文的影响。folksonomy由一组资源,一组标签和一组用户组成,具有不同领域

知识的用户使用不同标签来标注资源,这些标签很自然地代表了用户的主观层面,包括目的和知

识。因此,我们将上下文定义为用户的相关主观方面的集合。

在一个特定的上下文中,一些标签比其它的更重要。在我们的模型中,每个标签的权重由

[0,1]的实数表示。我们定义一个标签权重向量,反映了在上下文中标签权重的重要性。

基于主观层面,用户可以形成perspective以便获得上下文中的标签的一组重要性权重,

perspective的定义如下:

出于基于用户的主观方面形成perspective的原因,我们认为这种映射是由上下文中的用户完

成的,并且权重向量由用户给出。

4.Context Effect on Category Utility

在认知心理学中,不同上下文中基本概念是不同的。我们应该考虑上下文对分类效用的影

响。不同上下文中标签的重要性也是不同的。考虑到标签重要性的不同,添加上下文x的标签权

重向量Vx。预测性能的度量应该与标签权重成正相关。所以我们将预测性能的度量从p(ti)2 改为

vx,i * p(ti)2,。每个资源有不同数量的标签,我们希望分类效用不会被这种差异所影响。因此,我

们对每个标签的影响求了平均。

最终,上下文分类效用可以定义为:

其中C是类别集合,T是标签集,x是上下文。nk是距离ck唯一标签数,n是全部标签唯一数,vx,i是Vx(上下文x的标签权重向量)标签ti的值

5. A Context-Aware Basic Level Concepts Detection Algorithm

由于基本概念具有最高的类别效用,找到基本概念的问题成为使用类别效用作为目标函数的

优化问题。类别效用的值受到类别内相似性的影响,该类别相似性反映了类别成员之间的相似

性。拥有高类别相似性的类别就有高类别效用值。因此,在我们方法的每一步中,把最相似的实

例放在一起,直到类别效用值开始减少。为了计算相似度,我们使用余弦相关性。考虑到上下文

的影响,我们把标签权重加入到定义中。定义如下:

其中a,b是两个上下文,n是全部的唯一标签数,va,k是上下文a的标签ta,k的值(如果a

没有此标签,则值为0),vx,k是Vx(上下文x的标签权重向量)中标签tk的值。

在我们的算法中,首先,我们从每个实例构造概念,这类型的概念只包括一个实例,称为最

底层的概念。然后,我们计算每一对概念的相似度,建立相似度矩阵。第三步,在矩阵中最相似

的一对合并为新概念。新概念包含两个旧概念的所有实例,并保留它们的共同属性。然后我们重

新考虑其余概念的相似性矩阵。我们应用此合并过程,直到只剩下一个概念,或者最相似的概念

之间的相似性为0。在这个过程中,我们构建了一个树状图。然后,我们确定类别具有最高类别

效用值的步骤。这些类别被视为基本级别类别(概念)。算法的细节如下图,时间复杂度为O(N2

logN),N是资源数。

四、评估

1.数据集

我们的实验在真实数据集运行:1087个网页,其中有39475个标签,57976个用户。这

些网页都在编程领域。在资源被标记100次之后,每个标签的频率成为所有标签的总频率的

几乎固定比例。固定比例反映了资源中标签的实际价值。确保比例几乎是固定的,我们数据

集中的网页是书签超过100次的网页。ODP是用户维护的Web目录。每个目录都被视为ODP

中的概念。为了从ODP中导出标准概念,我们首先在ODP中选择某个目录(例如编程),然

后将其所有子目录视为标准概念。ODP中的这些概念由世界各地的专家创建,验证和编辑,

并被许多用户接受。为了评估,我们应用F1分数,这是召回和精确度的集合[10],以比较我

们的方法检测到的概念与ODP概念的类别结构。

然后做了一些预处理,简单的过滤数据。

2.实验过程

作者首先在没有考虑上下文的前提下,与K-Means和COBWEB的传统方法作比较;然

后在不同上下文中,作者的方法作比较。

五、总结

本篇论文的亮点在于考虑了上下文信息,同时可以在不同的上下文中检测不同的基本概念。

论文也多次提到了认知心理学,这也是学科交叉的一种体现。第一次读关于聚类方向的论文,刚

开始觉得有点抽象,作者也定义了很多概念,这让读者读得就有点混乱了。作者提到的标签权重

向量是人工评价的,当数据集比较大时,那么人工代价也会很昂贵。数据集预处理的第二个方法

没搞明白是什么意思?“down casing the obtained tags.”

猜你喜欢

转载自blog.csdn.net/qq_32782771/article/details/82709218
今日推荐