基于LBSN数据的推荐系统研究与实现

基于LBSN数据的推荐系统研究与实现

背景知识

在过去的五年中,随着定位技术的快速发展以及智能手机的普及,大大增强了社交网络服务,人们越来越多的通过智能手机使用在线社交网络,用户可以随时随地的分享他们当前所在的位置、图片、音频、视频及轨迹,形成了基于位置的社交网络(Location Based social NetWork,简称LBSN),这是互联网发展的一个里程碑。基于位置的社交网络这种新型的社交媒体迅速的发展起来,如Foursquare、Gowalla、Facebook、新浪微博以及微信朋友圈等均是国内外典型的LBSN网站。LBSN通过GPS全球定位系统或者是Wi_Fi定位与地理位置系统(Geographic Information System,GIS)结合来确定用户当前的位置,这样就可为用户提供一些基于位置的个性化服务。

目前LBSN中提供的基于位置的服务是位置签到服务(Location Check-in Service);与传统社交网络服务相比,该服务提供了用户签到机制,签到行为将用户社交行为和位置信息结合起来,从多维角度反映了用户的行为。LBSN相比于社交网络增加了空间维度,使得基于物理位置的现实世界与虚拟在线网络世界相融合,用户不仅可基于线下的物理世界来发展线上的社交关系,同时也可以基于线上的社交关系来发展线下物理世界的真实关系,使得网络中的社交关系变得更加真实。

困难点以及解决的方式

LBSN的迅速发展,使得大规模的LBSN异构数据(如文本信息、时空信息、音频视频信息、图片信息等)急剧增长,这使得研究人员对LBSN的分析面临数据量巨大且异构的困难

空间数据库及数据挖掘技术的发展使得存储和分析大量异构数据成为可能,对这些数据进行挖掘使得研究者可提取重要的规律及兴趣模式。所yi将数据挖掘技术应用于社会网络分析是数据挖掘技术的研究热点

从数据挖掘的角度来看,社交网络可看作是图模型为表示形式的多关系数据集,节点对应数据对象,节点之间的连边则表示对象之间的相互联系或者是相互作用的链接,其中节点和链接都有着各自的属性。由此可见,在对社交网络进行分析时,不仅需要关注数据对象,还要关注他们之间的链接,因为这些链接中包含着数据对象更加丰富、准确的信息。因此,利用数据挖掘技术对社交网络分析又被称为链接挖掘(LinkMining)。链接预测主要是基于网络中已经存在的链接及节点的属性来预测网络中丢失的链接或者未来可能出现的链接,它是链接挖掘研究中最重要的一个分支;**文章研究的是**LBSN朋友关系链接预测,是链接挖掘的一个分支

​ LBSN作为一种特殊的新型的社交网络,通过提供基于位置的签到服务,使得
用户可通过签到体现自己在某个时间对某个地点(如超市,商场等)的兴趣,这为LBSN链接预测提供了多个维度的信息。研究表明,当两个用户出现在相同或者相近的位置时,他们之间彼此成为朋友的可能性呈指数上升。由此可见,研究LBSN中的签到信息对改善LBSN的链接预测效果有很大的意义

空间数据库的理解

主要难题是空间数据是变长的,而传统的关系数据库的记录都是定长结构,用它来存储变长数据是很困难的。但随着一些关系数据库的发展,提供了大二进制字段(变长的)存储方法,可以存储图像、录像、声音等信息。

20世纪90年代中后期,GIS数据库技术又有了一次飞跃。1996年,美国ESRI公司与主流数据库技术的领头公司Oracle合作,开发出空间数据库引擎(Spatial Database Engine,SDE)。该技术仍然基于关系数据库系统,但是,它突破了传统的地学关系模型,采用基于大型关系数据库的客户/服务器的网络模式,实现了图形数据和属性数据在大型商业关系数据库的后台统一管理,空间数据可以存贮在关系型数据库中或一系列文件中。同时SDE作为中间应用服务器通过有效的空间查询向用户提供各种应用,包括地理数据查询、地图投影和在异构硬件/网络中向用户提供一致的服务

https://www.zhihu.com/question/27918946

空间数据库和传统的数据库的区别

1、数据量庞大。   
空间数据库面向的是地学及其相关对象,而在客观世界中它们所涉及的往往都是地球表面信息、地质信息、大气信息等及其复杂的现象和信息,所以描述这些信息的数据容量很大,容量通常达到 GB级。   
2、具有高可访问性 。   
空间信息系统要求具有强大的信息检索和分析能力, 这是建立在空间数据库基础上的,需要高效访问大量数据。   
3、空间数据模型复杂   
空间数据库存储的不是单一性质的数据,而是涵盖了几乎所有与地理相关的数据类型,这些数据类型主要可以分为 3 类:   
(1)属性数据:与通用数据库基本一致,主要用来描述地学现象的各种属性,一般包括数字、文本、日期类型。   
(2)图形图像数据:与通用数据库不同,空间数据库系统中大量的数据借助于图形图像来描述。   
(3)空间关系数据:存储拓扑关系的数据,通常与图形数据是合二为一的。   
4、属性数据和空间数据联合管理。  
5、应用范围广泛。 

相关的研究现状

链接预测

使用数据挖掘技术对社会网络进行分析也被称为链接挖掘。链接挖掘的研巧
任务包括社交网络描述和链接预测,它是数据挖掘应用于社交网络分析的一个非
常重要的分支。近年来,链接预测已经成为当下学者们研巧的热点。链接预测是
研究和理解社会网络的一种基本的数据挖掘和机器学习技术,目的在于捕捉不相
连的节点产生链接的可能性,是链路挖掘的一个很重要的任务,也是数据挖掘的
一种有效的方法和手段。链接预测有助于人们了解复杂网络的理论及其演变机制,
并解决了实际应用中的一些问题(信息集成领域、社会网络分析、推荐系统W及
生物信息学)

目前人们对LBSN基于相似性的链接预测算法的研巧主要包括两个领域,基于网络结构信息的方法和基于时空数据信息的方法

LBSN推荐系统的推荐结果对链接预测有着重要作用。国内外许多研巧者专注于基于用户地理位置的推荐系统的研究,包括位置推荐,好友推荐等等。

推断用户某一时刻的位置主要有两种方法:

第一,通过朋友的位置来推断用户的位置,
第二,通过分析用户发布到网上的内容来推断用户的位置W。Scellatc/w等人提出可W对位置数据修剪剔除一些无关信息,挂样可W显著提高推荐系统的性能。作者利用LDA文档主题生成模型对签到信息进行主题建模,并对主题呈现的特征进行分析,用于位置推荐。

时空技术应用

​ 目前时空数据挖掘技术的主要包括聚类和分类分析"、序列模式
联分析。时空技术通过相应的挖掘算法发现其中的隐含知识,常常作为链接预
测的预处理算法

​ LBSN中的签到数据具有时空的特点,这些时空数据中隐含着体现用户之间关
系的信息,目前有很多时空技术通过挖掘时空特征来预测用户的关系;现有的很多针对时空数据的研究利用时空技术来得到时空轨迹,并利用时空轨迹之间的相似性来衡量用户的相似性;

​ 文献[37]提出了一个基于层次图的相似性度量模型,该模型首先根据签到的时间和对位置进行聚类得到用户的停留位置轨迹,并将该轨迹序列分为若干层次,最后根据送些层次结构来计算轨迹的相似性并得到用户的相似性。

文献[38]提出了MSTP模型得到用户语义轨迹,并利用语义轨迹的相似来进行潜在朋友的推荐。

Gonz'alezuw等人的研究表明每一个用户的时空行为具有一定的周期性,即用户有显著的概率会再次访问之前去过的地方。Noulastw等人的分析表明,在一天之中,用户签到的地点类别不同,白天更多会在工作地点,晚上则更多的会待在家里。时空技术的研巧为LBSN链接预测提供必要的基础。本文主要关注对LBSN时空数据的聚类分析。

目前利用签到信息的链接预测方法有下缺点:

(1)签到地点分布稀疏导致不能充分利用签到位置维度和时间的信息;

(2)忽略了签到地点的语义相似性对用户相似性的作用。

(3)缺少融合多维相似性特征的链接预测方法来改善预测性能

论文的主要的内容

本文主要研究LBSN融合多维信息的基于相似性的链接预测方法,从用户、签到时间、签到地点W及签到地点语义这四个方面挖掘用户基于签到信息的相似性特征,为链接预测提供更加丰富的信息。最后利用有监督策略综合多维相似性特征进行链接预测,提高链接预测效率。

(1)基于广义地点的签到时空用户相似性特征挖掘:本文主要采用基于位置的社交网站Gowalla数据集。在对其进行简单的数据清洗之后,从用户、位置、时间三个方面分析其签到行为的分布恃点。通过对签到地点进行聚类得到广义地点来解决签到地点分布稀疏的问题,基于此构建广义地点关系网络。在广义地点关系网络的基础上提出UTP模型来挖掘基于时空维度的用户相似性特征:1)利用广义地点中所有地点的平均熵来代替位置熵,并利用用户对地点的偏好来惩罚位置熵,提出了综合用户与位置的用户相似性特征;2)利用用户在不同时刻之间签到行为的相似性来计算两个用户在不同时刻签到行为的相似性,提出了基于签到时间的用户相似性特征。最后利用真实数据集对这两个特征的有效性进行验证。
(2)基于签到地点语义的用户相似性特征挖掘:本文对用户签到地点语义信息进行LDA主题建模得到用户签到位置主题模型,将每个用户的签到列表看作一篇文档,签到列表中的每一个签到地点看作一个词。接着利用Gibbs采样算法对签到语义数据采样得到所有用户的签到位置主题分布及每个主题下的位置分布。利用这两个分布,本文提出了用户基于签到地点语义的相似性特征,并且对其有效性进行了验证。
(3)基于多维相似性特征的LBSN链接预测方法:本文在重视网络结构相似性特征的基础上,加入基于签到信息得到的相似性特征作为辅助特征,利用有监督策略综合所有特征对数据集进行链接预测。实验结果表明,利用该方法进行链接预测,显著提高了LBSN的链接预测的性能。

LBSN简介

​ 基于位置的社交网络即LBSN是一种复杂的异质网络,它由用户和位置这两种类型的结点构成,这两者之间有紧密的联系。在日常生活中,用户可以访问现实物理世界中的位置,并且可发布带有时间戳及位置标签的媒体内容,这些时间戳和位置标签记录了他们在什么时间访问了什么地方及发布了什么内容;LBSN可被理解为一种三层结构:社交网络层、地理位置层以及信息媒体内容层:

mark

基于上述的H层结构,LBSN可以建立六种类型的图:用户-用户图、位置-位置图、内容-内容图、用户-内容图、用户-位置图及位置-内容图。本文主要关注上述三层结构的社交网络层和地理位置层。论文中研LBSN朋友关系链接预测即利用社交网络层的己知用户关系地理位置层中的用户签到信息来预测社交网络层中丢失的或者未来可能出现的链接(即新的朋友关系的建立

本文将LBSN建模为无向无权的图,用G(V,E,P)来表示。其中,V代表的网络中用户节点的集{u1,u2,u3,u4,…uN},网络中每两个用户节点之间只能形成-条链接,而且不允许用户节点自环。E代表的是网络中链接的集合,用
mark表示。若两个用户节点之间存在一条链接,则认为这两个用户存在朋友关系。最后P代表的是网络中所有用户访问过的地点列表的集合,用{p1,p2,...pM}表示。

​ 本文主要义用美国斯坦福网络分析平台(Sanford NetworkAnalysisPlatform,SNAP)公开的基于位置的社交网络Gowalla数据集;该数据集包含两个文件,一个文件记录用户的签到数据,每一条签到数据的字段格式为{userID,latitude,龙体图的,timestamp,locationID},其中user ID是用户唯一标识,timestamp表示该条签到记录的时间戳,latitude表示签到地点的维度,longtitude表示签到地点的经度,locationID是签到地点的唯一标识。该数据集的另一个文件记录的是用户的好友关系,每一条好友关系数据的字段格式为{user ID,user ID},是两两对应的格式,在该文件中存在一半的兀余信息,在使用前需要进行清洗去掉这些冗余信息.

基于相似性的LBSN链接预测算法

mark

mark

1

猜你喜欢

转载自blog.csdn.net/weixin_40304387/article/details/78830820
今日推荐