基于LBSN数据的推荐系统研究与实现

背景知识

在过去的五年中，随着定位技术的快速发展以及智能手机的普及，大大增强了社交网络服务，人们越来越多的通过智能手机使用在线社交网络，用户可以随时随地的分享他们当前所在的位置、图片、音频、视频及轨迹，形成了基于位置的社交网络（Location Based social NetWork，简称LBSN），这是互联网发展的一个里程碑。基于位置的社交网络这种新型的社交媒体迅速的发展起来，如Foursquare、Gowalla、Facebook、新浪微博以及微信朋友圈等均是国内外典型的LBSN网站。LBSN通过ＧＰＳ全球定位系统或者是Wi_Fi定位与地理位置系统（Geographic Information System，GIS）结合来确定用户当前的位置，这样就可为用户提供一些基于位置的个性化服务。

目前LBSN中提供的基于位置的服务是位置签到服务（Location Check-in Service);与传统社交网络服务相比，该服务提供了用户签到机制，签到行为将用户社交行为和位置信息结合起来，从多维角度反映了用户的行为。ＬＢＳＮ相比于社交网络增加了空间维度，使得基于物理位置的现实世界与虚拟在线网络世界相融合，用户不仅可基于线下的物理世界来发展线上的社交关系，同时也可以基于线上的社交关系来发展线下物理世界的真实关系，使得网络中的社交关系变得更加真实。

困难点以及解决的方式

LBSN的迅速发展，使得大规模的LBSN异构数据（如文本信息、时空信息、音频视频信息、图片信息等）急剧增长，这使得研究人员对ＬＢＳＮ的分析面临数据量巨大且异构的困难

空间数据库及数据挖掘技术的发展使得存储和分析大量异构数据成为可能，对这些数据进行挖掘使得研究者可提取重要的规律及兴趣模式。所yi将数据挖掘技术应用于社会网络分析是数据挖掘技术的研究热点

从数据挖掘的角度来看，社交网络可看作是图模型为表示形式的多关系数据集，节点对应数据对象，节点之间的连边则表示对象之间的相互联系或者是相互作用的链接，其中节点和链接都有着各自的属性。由此可见，在对社交网络进行分析时，不仅需要关注数据对象，还要关注他们之间的链接，因为这些链接中包含着数据对象更加丰富、准确的信息。因此，利用数据挖掘技术对社交网络分析又被称为链接挖掘（ＬｉｎｋＭｉｎｉｎｇ）。链接预测主要是基于网络中已经存在的链接及节点的属性来预测网络中丢失的链接或者未来可能出现的链接，它是链接挖掘研究中最重要的一个分支;**文章研究的是**LBSN朋友关系链接预测，是链接挖掘的一个分支

ＬＢＳＮ作为一种特殊的新型的社交网络，通过提供基于位置的签到服务，使得
用户可通过签到体现自己在某个时间对某个地点（如超市，商场等）的兴趣，这为ＬＢＳＮ链接预测提供了多个维度的信息。研究表明，当两个用户出现在相同或者相近的位置时，他们之间彼此成为朋友的可能性呈指数上升。由此可见，研究ＬＢＳＮ中的签到信息对改善ＬＢＳＮ的链接预测效果有很大的意义

空间数据库的理解

主要难题是空间数据是变长的，而传统的关系数据库的记录都是定长结构，用它来存储变长数据是很困难的。但随着一些关系数据库的发展，提供了大二进制字段（变长的）存储方法，可以存储图像、录像、声音等信息。

20世纪90年代中后期，GIS数据库技术又有了一次飞跃。1996年，美国ESRI公司与主流数据库技术的领头公司Oracle合作，开发出空间数据库引擎（Spatial Database Engine，SDE）。该技术仍然基于关系数据库系统，但是，它突破了传统的地学关系模型，采用基于大型关系数据库的客户/服务器的网络模式，实现了图形数据和属性数据在大型商业关系数据库的后台统一管理，空间数据可以存贮在关系型数据库中或一系列文件中。同时SDE作为中间应用服务器通过有效的空间查询向用户提供各种应用，包括地理数据查询、地图投影和在异构硬件/网络中向用户提供一致的服务

https://www.zhihu.com/question/27918946

空间数据库和传统的数据库的区别

1、数据量庞大。   
空间数据库面向的是地学及其相关对象，而在客观世界中它们所涉及的往往都是地球表面信息、地质信息、大气信息等及其复杂的现象和信息，所以描述这些信息的数据容量很大，容量通常达到 GB级。   
2、具有高可访问性 。   
空间信息系统要求具有强大的信息检索和分析能力， 这是建立在空间数据库基础上的，需要高效访问大量数据。   
3、空间数据模型复杂   
空间数据库存储的不是单一性质的数据，而是涵盖了几乎所有与地理相关的数据类型，这些数据类型主要可以分为 3 类：   
（1）属性数据：与通用数据库基本一致，主要用来描述地学现象的各种属性，一般包括数字、文本、日期类型。   
（2）图形图像数据：与通用数据库不同，空间数据库系统中大量的数据借助于图形图像来描述。   
（3）空间关系数据：存储拓扑关系的数据，通常与图形数据是合二为一的。   
4、属性数据和空间数据联合管理。  
5、应用范围广泛。

论文的主要的内容

本文主要研究ＬＢＳＮ融合多维信息的基于相似性的链接预测方法，从用户、签到时间、签到地点Ｗ及签到地点语义这四个方面挖掘用户基于签到信息的相似性特征，为链接预测提供更加丰富的信息。最后利用有监督策略综合多维相似性特征进行链接预测，提高链接预测效率。

（１）基于广义地点的签到时空用户相似性特征挖掘：本文主要采用基于位置的社交网站Ｇｏｗａｌｌａ数据集。在对其进行简单的数据清洗之后，从用户、位置、时间三个方面分析其签到行为的分布恃点。通过对签到地点进行聚类得到广义地点来解决签到地点分布稀疏的问题，基于此构建广义地点关系网络。在广义地点关系网络的基础上提出ＵＴＰ模型来挖掘基于时空维度的用户相似性特征：１）利用广义地点中所有地点的平均熵来代替位置熵，并利用用户对地点的偏好来惩罚位置熵，提出了综合用户与位置的用户相似性特征；２）利用用户在不同时刻之间签到行为的相似性来计算两个用户在不同时刻签到行为的相似性，提出了基于签到时间的用户相似性特征。最后利用真实数据集对这两个特征的有效性进行验证。
（２）基于签到地点语义的用户相似性特征挖掘：本文对用户签到地点语义信息进行ＬＤＡ主题建模得到用户签到位置主题模型，将每个用户的签到列表看作一篇文档，签到列表中的每一个签到地点看作一个词。接着利用Gibbs采样算法对签到语义数据采样得到所有用户的签到位置主题分布及每个主题下的位置分布。利用这两个分布，本文提出了用户基于签到地点语义的相似性特征，并且对其有效性进行了验证。
（３）基于多维相似性特征的ＬＢＳＮ链接预测方法：本文在重视网络结构相似性特征的基础上，加入基于签到信息得到的相似性特征作为辅助特征，利用有监督策略综合所有特征对数据集进行链接预测。实验结果表明，利用该方法进行链接预测，显著提高了ＬＢＳＮ的链接预测的性能。

LBSN简介

基于位置的社交网络即LBSN是一种复杂的异质网络，它由用户和位置这两种类型的结点构成，这两者之间有紧密的联系。在日常生活中，用户可以访问现实物理世界中的位置，并且可发布带有时间戳及位置标签的媒体内容，这些时间戳和位置标签记录了他们在什么时间访问了什么地方及发布了什么内容；LBSN可被理解为一种三层结构：社交网络层、地理位置层以及信息媒体内容层：

mark

基于上述的Ｈ层结构，ＬＢＳＮ可以建立六种类型的图：用户－用户图、位置－位置图、内容－内容图、用户－内容图、用户－位置图及位置－内容图。本文主要关注上述三层结构的社交网络层和地理位置层。论文中研LBSN朋友关系链接预测即利用社交网络层的己知用户关系和地理位置层中的用户签到信息来预测社交网络层中丢失的或者未来可能出现的链接（即新的朋友关系的建立）

本文将LBSN建模为无向无权的图，用Ｇ(V,E,P)来表示。其中，V代表的网络中用户节点的集{u1,u2,u3,u4,…uN}，网络中每两个用户节点之间只能形成－条链接，而且不允许用户节点自环。E代表的是网络中链接的集合，用
mark 表示。若两个用户节点之间存在一条链接，则认为这两个用户存在朋友关系。最后P代表的是网络中所有用户访问过的地点列表的集合，用｛p1，p2，．．．pM｝表示。

本文主要义用美国斯坦福网络分析平台（ＳａｎｆｏｒｄＮｅｔｗｏｒｋＡｎａｌｙｓｉｓＰｌａｔｆｏｒｍ，ＳＮＡＰ）公开的基于位置的社交网络Ｇｏｗａｌｌａ数据集；该数据集包含两个文件，一个文件记录用户的签到数据，每一条签到数据的字段格式为{userID，latitude，龙体图的，timestamp，locationID}，其中user ID是用户唯一标识，timestamp表示该条签到记录的时间戳，latitude表示签到地点的维度，longtitude表示签到地点的经度，locationID是签到地点的唯一标识。该数据集的另一个文件记录的是用户的好友关系，每一条好友关系数据的字段格式为{user ID,user ID}，是两两对应的格式，在该文件中存在一半的兀余信息，在使用前需要进行清洗去掉这些冗余信息.

基于相似性的LBSN链接预测算法

mark