阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

2020-01-21 16:17:16

人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。据了解,本次大会共有 687 篇论文被收录,其中,阿里巴巴达摩院提交的的《Variational Autoencoders for Highly Multivariate Spatial Point Processes Intensities》提出了一种全新的推荐方法,即在推荐领域引入多元点过程,可解决超高维的参数下的训练和预测。

该论文作者之一,阿里巴巴达摩院算法专家王晓伟对此做了深度解读。

1. 背景

在电商平台以及其他各种社交、内容等平台中,推荐问题可以看作是一个数据填充问题,如果将用户和商品看成一个二维矩阵,那么我们如何在已知其中部分矩阵元素和行列信息的情况下,对于未知的元素进行预测填充。由此出发,经典的推荐系统一般基于用户-商品的交互行为(部分矩阵元素),或者用户和商品的属性(行列信息),或者两者混合的方式,对矩阵进行填充。由此产生了协同过滤、基于内容的推荐等方法,并且随着深度学习的高速发展,各个算法模型对于信息的组织、处理和传导能力极大提升。

当前的推荐系统侧重于利用强大的非参数化模型,结合用户/商品的属性和交互行为,对单独的用户-商品对进行偏好预估。但是在时间和空间上,用户购买手机之后很可能再次购买手机壳等配件,发现一个美味的饭店后也很可能推荐其他朋友去就餐。这说明个体自身以及个体间的行为存在不同时间和空间间隔上存在影响,我们希望通过点过程,将这样的关系显示地建模进推荐系统。

点过程这一领域起源于人们对大自然中随机事件建立的一系列生成模型,统计学家们发现实际应用中有许多问题并不能用简单的泊松点过程(Poisson Point Process)解释。这类问题的一个共同特点是时间或者空间上事件分布的不均匀性,也即在相同均值条件下方差比均匀的泊松过程方差更高。大量的点过程理论和模型在二十世纪得到完善,其中空间点过程广泛应用在宇宙天体行星、森林物种分布以及疾病空间传播的建模,而当时间扮演重要作用时,对应的时间/时空点过程可以很好地对地震余震、神经元脉冲等现象进行建模推断。

作为一个连续生成模型,点过程和时间序列等离散模型的一个重要区别即在于其能精确并简洁地描述事件在时空中的分布。近年间,随着电子设备对人类时空活动的详细记录,点过程作为对人类突发(burstiness)行为建模的工具开始在众多社会科学中得到应用。例如在犯罪预测中,由于Hawkes点过程成功地诠释了入室抢劫等犯罪行为在时空中聚集的现象(near-repeat effects),已经被洛杉矶警局(LAPD)等众多城市警方采用,是近年预测治安(predictive policing)的重要模型。点过程在金融领域,特别是在高频交易建模中(limit order book)开始取代离散等间距的时间序列模型。

多元点过程被广泛用于多类型时空事件的分析,其中尤为突出的是多元Hawkes点过程在社交网络,因果关联发现的研究中广泛使用,有效地对人群动态的阵发性和周期性进行建模。在推荐系统中,我们可以将每一个用户和其在时空中的事件(如打卡,购买等)视为一元点过程,并且通过多元点过程对用户整体进行建模。这一方法借助用户之间潜在的关系(如共同喜好)来协同预测其未来的行为。这里的空间并不局限于实际的三维空间,也可以考虑embedding方法生成的商品空间。然而这样的建模思路很难直接用于推荐场景,大量的用户自然导致维度灾难,现有方法很难对模型准确的估计和预测。为了解决这一问题,我们建立了一类多元空间点过程模型,并运用VAE进行有效的估计。

2. 空间点过程

空间点过程

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

可以被视为在连续空间

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

中的计数度量,为中事件的数目。我们可以通过强度函数(intensity function)λ来刻画,其含义为单位空间中事件数目的期望:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

最常见的(空间)点过程模型为泊松过程,包括最简单的齐次泊松过程(λ是常数)和非齐次的情况,如:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

在实际应用中,一个确定的强度函数并不能满足我们的需要,应当进一步推广到随机的强度函数情况。一方面,用户的喜好随着时间会自身演化:我们可以认为点过程的强度函数依赖于之前已经发生的事件,这正是自我激励(self-exciting)或者抑制(inhibition)点过程的建模思路。另一方面,随机的外生因素对用户喜好的影响:例如大促、季节、新品等外界因素对用户的购买行为有着极大的影响,点过程的强度函数也应当包含这些随机因素,这是为Cox或者log Gaussian Cox点过程。

点过程的估计多依赖于极大似然估计(MLE):对于定义在R上的非齐次泊松点过程,其对数似然函数为:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

对于Cox点过程,我们需要对泊松似然函数求期望,这一积分较为难求,一般采取采样方法或者变分估计来近似。

3. 多元用户点过程

我们考虑前述点过程的多元版本,这里的每一元是一个点过程

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

和其他点过程有着潜在的联系。在我们的模型中,每个用户可以被视为一个一元点过程,其在兴趣点(POI)打卡或者购买商品的记录被视为点过程中的事件。实际应用场景中有着海量的用户,现有的点过程模型难以直接使用,我们在这里讨论如何有效估计这一超多元模型,同时如何运用这一模型对用户行为进行预测。

对任一用户u,我们观测到其

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

个时空事件:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

这里的X可以是实际的经纬度信息,也可以是商品embedding的向量。对强度函数,我们采用一个简单的非参数核函数估计(KDE)

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

这里的核函数

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

是RBF

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

实际的推荐场景可以被视为一个缺失数据问题,即用户的全部兴趣并不可知,我们希望通过历史观测和其他用户的行为来共同恢复这一信息。我们用

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

来表示全部事件的数目. 这里我们对每一个用户u=1,...,U,

每一个事件

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

引入隐变量,当用户

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

导致事件

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

不然,

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

这一隐变量的期望

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

是事件

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

来自用户u的概率。借助引入的隐变量,我们定义如下的多元用户点过程

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

其本质是Cox点过程,强度函数自身是一个随机过程。

4. VAE估计

针对现有估计的问题,我们采用一种摊余(amortized)推断的思路,通过训练变分自动编码机(VAE)来降低推断的成本。我们模型的生成过程描述如下:

每个用户u对应一个K维的隐变量

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

,伴随着多元高斯分布先验

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

这里我们采用一个低维表示,之后被一个非线性映射(MLP)

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

转换为N维向量。最终每个用户的事件是由这一点过程采样生成。

VAE采用多元高斯分布

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

来近似z的后验

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

我们模型的变分下界(ELBO)为

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

ELBO 中第一项是如下的对数似然函数:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

算法:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

5. 实验

我们通过一系列在模拟数据和实际数据上的实验来验证模型和估计方法的有效性。实际数据包括两个公开数据集,基于用户地点打开的社交网络Gowalla,以及用户对电影评分的Movielens。对比的方法包括基于VAE的Collaborative Filtering(VAE-CF),以及经典的一元点过程估计方法,如KDE和Log Gaussian Cox process。

基于地点的推荐

我们考虑Gowalla数据集,Gowalla是仅次于Four-square的第二大基于地理信息的打卡网站。这一数据集是大量有关geo-tag和location-based的应用研究的标准数据。其数据分为两部分:

loc-gowalla_totalCheckins.txt 是签到数据( 6,442,890 ),包括签到的时间、地点、用户ID;loc-gowalla_edges.txt 是Gowalla用户(196,591个用户)的社交网络关系无向图(950,327条边)。

实验的结果如下:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

用户兴趣在空间中的分布:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

基于物品的推荐

由于物品(如商品、电影)并没有显式的地理信息,我们需要首先将其嵌入(embedding)到欧式空间中。这里我们假设相似的电影的embedding也会比较接近。对于MovieLens数据,我们首先基于Jaccard距离构造电影之间的图,并使用Graph neural network(GNN)来生成电影的embedding。共同训练GNN和VAE可以带来更精确的推荐,但是训练成本也会上升。

实验结果如下:

阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

6. 结论

针对多元点过程的估计问题,我们基于VAE提出了一个新的模型和思路。通过摊余推断使得我们可以在物品推荐中引入点过程,特别是在基于地理信息和embedding的推荐系统中有了较好的结果。在阿里的实际推荐场景中,新方法在点击率、类目宽度等指标上也有明显的提升。在未来,结合归纳学习的embedding方法(如Graphsage)来解决冷启动是一个重要的方向;将这一模型推广至时空情况,特别是用于因果推断,也值得进行探索。

论文地址:https://openreview.net/forum?id=B1lj20NFDS

— 完 —

发布了416 篇原创文章 · 获赞 672 · 访问量 135万+

猜你喜欢

转载自blog.csdn.net/weixin_42137700/article/details/104079847