推荐系统中的矩阵分解总结

最近学习矩阵分解，但是学了好多种类，都乱了，看了这篇文章，系统性的总结了矩阵分解，感觉很棒，故分享如下:

原文地址：https://zhuanlan.zhihu.com/p/35262187

前言

推荐系统中最为主流与经典的技术之一是协同过滤技术（Collaborative Filtering），它是基于这样的假设：用户如果在过去对某些项目产生过兴趣，那么将来他很可能依然对其保持热忱。其中协同过滤技术又可根据是否采用了机器学习思想建模的不同划分为基于内存的协同过滤（Memory-based CF）与基于模型的协同过滤技术（Model-based CF）。其中基于模型的协同过滤技术中尤为矩阵分解（Matrix Factorization）技术最为普遍和流行，因为它的可扩展性极好并且易于实现，因此接下来我们将梳理下推荐系统中出现过的经典的矩阵分解方法。

矩阵分解

对于推荐系统来说存在两大场景即评分预测（rating prediction）与Top-N推荐（item recommendation，item ranking）。评分预测场景主要用于评价网站，比如用户给自己看过的电影评多少分（MovieLens），或者用户给自己看过的书籍评价多少分（Douban）。其中矩阵分解技术主要应用于该场景。Top-N推荐场景主要用于购物网站或者一般拿不到显式评分信息的网站，即通过用户的隐式反馈信息来给用户推荐一个可能感兴趣的列表以供其参考。其中该场景为排序任务，因此需要排序模型来对其建模。因此，我们接下来更关心评分预测任务。

对于评分预测任务来说，我们通常将用户和项目（以电影为例）表示为二维矩阵的形式，其中矩阵中的某个元素表示对应用户对于相应项目的评分，1-5分表示喜欢的程度逐渐增加，？表示没有过评分记录。推荐系统评分预测任务可看做是一个矩阵补全（Matrix Completion）的任务，即基于矩阵中已有的数据（observed data）来填补矩阵中没有产生过记录的元素（unobserved data）。值得注意的是，这个矩阵是非常稀疏的（Sparse），稀疏度一般能达到90%以上，因此如何根据极少的观测数据来较准确的预测未观测数据一直以来都是推荐系统领域的关键问题。

重点：推荐系统的评分预测场景可看做是一个矩阵补全的游戏，矩阵补全是推荐系统的任务，矩阵分解是其达到目的的手段。因此，矩阵分解是为了更好的完成矩阵补全任务（欲其补全，先其分解之）。之所以可以利用矩阵分解来完成矩阵补全的操作，那是因为基于这样的假设：假设UI矩阵是低秩的，即在大千世界中，总会存在相似的人或物，即物以类聚，人以群分，然后我们可以利用两个小矩阵相乘来还原它。

1、PureSVD

当然提到矩阵分解，人们首先想到的是数学中经典的SVD（奇异值）分解，在这我命名为PureSVD（传统并经典着），直接上公式：

扫描二维码关注公众号，回复： 2952776 查看本文章

当然SVD分解的形式为3个矩阵相乘，左右两个矩阵分别表示用户/项目隐含因子矩阵，中间矩阵为奇异值矩阵并且是对角矩阵，每个元素满足非负性，并且逐渐减小。因此我们可以只需要前 $k$ 个因子来表示它。

如果想运用SVD分解的话，有一个前提是要求矩阵是稠密的，即矩阵里的元素要非空，否则就不能运用SVD分解。很显然我们的任务还不能用SVD，所以一般的做法是先用均值或者其他统计学方法来填充矩阵，然后再运用SVD分解降维。

2、FunkSVD

http://sifter.org/~simon/journal/20061211.html

刚才提到的PureSVD首先需要填充矩阵，然后再进行分解降维，同时由于需要求逆操作（复杂度O(n^3)），存在计算复杂度高的问题，所以后来Simon Funk提出了FunkSVD的方法，它不在将矩阵分解为3个矩阵，而是分解为2个低秩的用户项目矩阵，同时降低了计算复杂度：

它借鉴线性回归的思想，通过最小化观察数据的平方来寻求最优的用户和项目的隐含向量表示。同时为了避免过度拟合（Overfitting）观测数据，又提出了带有L2正则项的FunkSVD：

以上两种最优化函数都可以通过梯度下降或者随机梯度下降法来寻求最优解。

3、PMF

Salakhutdinov et al. Probabilistic matrix factorization. NIPS(2008): 1257-1264.

PMF是对于FunkSVD的概率解释版本，它假设评分矩阵中的元素 $\mathbf{R}_{ij}$ 是由用户潜在偏好向量 $\mathbf{U}_i$ 和物品潜在属性向量 $\mathbf{V}_j$ 的内积决定的，并且服从均值为 $\mathbf{U}_i^T\mathbf{V}_j$ ，方差为 $\sigma^2$ 的正态分布：

则观测到的评分矩阵条件概率为：

同时，假设用户偏好向量与物品偏好向量服从于均值都为0，方差分别为 $\sigma^2_U\mathbf{I}$ , $\sigma^2_V\mathbf{I}$ 的正态分布：

根据贝叶斯公式，可以得出潜变量U,V的后验概率为：

接着，等式两边取对数 $ln$ 后得到：

最后，经过推导，我们可以发现PMF确实是FunkSVD的概率解释版本，它两个的形式一样一样的。

注：为了方便读者理解，在此举例推导中间项 $N(U_i|0,\sigma^2\mathbf{I})$ ，将此项展开，带入多维正态分布即可得到 $-\frac{D}{2}ln(\sigma^2_U)-\frac{U_i^TU_i}{2\sigma^2_U}+C$ 。推导如下：

4、BiasSVD

Koren et al. Matrix factorization techniques for recommender systems. Computer 42.8 (2009).

在FunkSVD提出来之后，陆续又提出了许多变形版本，其中相对流行的方法是BiasSVD，它是基于这样的假设：某些用户会自带一些特质，比如天生愿意给别人好评，心慈手软，比较好说话，有的人就比较苛刻，总是评分不超过3分（5分满分）；同时也有一些这样的项目，一被生产便决定了它的地位，有的比较受人们欢迎，有的则被人嫌弃，这也正是提出用户和项目偏置项的原因；项亮给出的解释是：对于一个评分系统有些固有属性和用户物品无关，而用户也有些属性和物品无关，物品也有些属性与用户无关，具体的预测公式如下：

其中， $\mu$ 为整个网站的平均评分，是真个网站的基调； $b_u$ 为用户的评分偏置，代表某个用户的评分基调， $b_i$ 为项目的被评分偏置，代表某个项目的属性基调。

5、SVD++

Koren Y. Factor in the neighbors: Scalable and accurate collaborative filtering[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2010, 4(1): 1.

在用户除了显式评分外，隐式反馈信息同样有助于用户的偏好建模，因此随后提出了SVD++。它是基于这样的假设：用户除了对于项目的显式历史评分记录外，浏览记录或者收藏列表等隐反馈信息同样可以从侧面一定程度上反映用户的偏好，比如用户对某个项目进行了收藏，可以从侧面反映他对于这个项目感兴趣，具体反映到预测公式为：

其中 $N(i)$ 为用户 $i$ 所产生隐反馈行为的物品集合； $y_s$ 为隐藏的对于项目 $s$ 的个人喜好偏置，是一个我们所要学习的参数；至于 $|N(i)|^{-\frac{1}{2}}$ 是一个经验公式。

6、timeSVD

Koren et al. Collaborative filtering with temporal dynamics. Communications of the ACM 53.4 (2010): 89-97.

它是基于这样的假设：用户的兴趣或者偏好不是一成不变的，而是随着时间而动态演化。于是提出了timeSVD，其中用户的和物品的偏置随着时间而变化，同时用户的隐含因子也随着时间而动态改变，在此物品的隐含表示并未随时间而变化（假设物品的属性不会随着时间而改变）。

其中， $t$ 为时间因子，表示不同的时间状态。

7、NMF

Lee et al. Learning the parts of objects by non-negative matrix factorization. Nature 401.6755 (1999): 788.

这是一篇发表在Nature上的经典论文，谷歌学术显示引用将近9k，它提出了一个假设：分解出来的小矩阵应该满足非负约束。

因为在大部分方法中，原始矩阵 $\mathbf{R}$ 被近似分解为两个低秩矩阵 $\mathbf{R}=\mathbf{P}^T\mathbf{Q}$ 相乘的形式，这些方法的共同之处是，即使原始矩阵的元素都是非负的，也不能保证分解出的小矩阵都为非负，这就导致了推荐系统中经典的矩阵分解方法可以达到很好的预测性能，但不能做出像User-based CF那样符合人们习惯的推荐解释（即跟你品味相似的人也购买了此商品）。在数学意义上，分解出的结果是正是负都没关系，只要保证还原后的矩阵元素非负并且误差尽可能小即可，但负值元素往往在现实世界中是没有任何意义的。比如图像数据中不可能存在是负数的像素值，因为取值在0~255之间；在统计文档的词频时，负值也是无法进行解释的。因此提出带有非负约束的矩阵分解是对于传统的矩阵分解无法进行科学解释做出的一个尝试。它的公式如下：

其中， $\mathbf{P}$ , $\mathbf{Q}$ 两个矩阵中的元素满足非负约束。

8、WMF

Pan et al. One-class collaborative filtering. ICDM, 2008.
Hu et al. Collaborative filtering for implicit feedback datasets. ICDM, 2008.

对于矩阵分解来说，我们一般是处理的推荐系统中的评分预测任务，但同样矩阵分解也可以用来进行Top-N的推荐，即根据隐式信息来预测用户是否点击某项目。你可以把他看做是二分类问题，即点或者不点。但这不是普通的二分类问题，因为在模型训练的过程中负样本并非都为真正的负样本，可能是用户根本没见过该项目，何来喜不喜欢,没准他看到后喜欢呢，即正样本告诉我们作者喜欢的信息，但负样本并不能告诉我们该用户不喜欢。由于只存在正样本，所以我们把只有正反馈的问题定义为one-class问题，即单类问题。对于单类问题，该作者提出了两种解决策略，一种是加权的矩阵分解，另一种是负采样技术。虽然只是加了一下权重，看起来比较naive，但在于当时的研究背景下，这一小步其实是推荐系统中的一大步。

对于单类问题的研究一直没有停止过，虽然负采样技术是启发式的，即不用通过数据建模的方式来进行预测，但效果还是很好用的。最近几年人们提出了基于模型的方法来处理这种单类问题，即从缺失数据中来进行建模，具体可参见这两篇论文【Hernández-Lobato et al 2014，Liang et al 2016】。

10、LLORMA

Lee et al. Local low-rank matrix approximation. ICML. 2013.

经典的矩阵分解模型是假设整个用户-项目矩阵（即UI矩阵）满足低秩假设（即全局低秩假设），即在整个系统当中，用户和项目总是满足存在相似的某种模式，即物以类聚，人以群分。

这种假设固然有道理，但在当今大数据时代下，全局意义上的低秩假设似乎太强了，尤其是在数据量巨大的情况下（即用户数与项目数都很多的系统当中），因此该论文推翻了全局意义上经典的全局低秩假设，它认为大千世界，林林总总，我们应该去寻找局部的低秩假设（即局部低秩假设）。首先根据某种相似测度来将整个大矩阵分为若干个小矩阵，每个小矩阵当中满足某种相似度阈值，然后再在局部的小矩阵当中做低秩假设。这样，全局的大矩阵可以由多个局部的小矩阵来加权组合构成，具体可参见该论文。

11、SRui

Ma Hao. An experimental study on implicit social recommendation. SIGIR, 2013.

虽然经典的矩阵分解方法已经可以到达比较好的预测性能了，但它固有的弊病仍然是躲不开的，即数据稀疏与冷启动问题。为了缓解数据稀疏我们可以引入丰富的社交信息。即如果两个用户是朋友关系，那么我们假设他们有相同的偏好，同时他们学得的用户隐表示在向量空间应该有相近的距离。用户维度如此，同理，项目维度亦可以利用此思路来约束项目隐表示。即如果两个项目之间的关系较近，那么在低维向量空间中的距离同样也应该较小。这里的项目关系是从UI矩阵中抽取出来的，论文中成为项目隐社交关系（其实项目维度跟社交没啥关系）。具体公式如下：

其中， $s_{if}$ 表示用户 $i$ 和用户 $f$ 的社交相似度， $s_{jq}$ 表示项目 $j$ 与项目 $q$ 的隐社交相似度，在用户维度和项目维度分别增加了平滑项约束，使得学得的隐特征表示更加符合现实意义。

12、ConvMF

Kim et al. Convolutional matrix factorization for document context-aware recommendation. RecSys 2016.

当然矩阵分解的优点之一是可扩展性好，这当然不是吹的，比如16年的这篇文章就是将矩阵分解（MF）与图像处理领域很火的卷积神经网络（CNN）做了完美结合。

矩阵分解作为协同过滤模型中经典的方法，性能当然没的说。但它存在的数据稀疏与冷启动问题一直以来都是它的痛点，因此结合外部丰富的信息成为了缓解上述问题的有效途径。其中文本数据作为web中主流的数据形式成为了首选，并且对于文本的处理，大部分还是基于one-hot的表示，因此无法捕捉文档中上下文的关键信息，于是作者将两者做了结合，具体细节请参见论文，该公式如下：

其中，在使得用户隐向量与项目隐向量做内积尽可能逼近真实评分的同时，对项目隐向量做了额外约束，即让项目隐向量跟CNN学得的文档特性尽可能的接近。

13、NCRPD-MF

Hu et al. Your neighbors affect your ratings: on geographical neighborhood influence to rating prediction. S IGIR 2014.

刚才说到，MF的可扩展性好，一方面是可以和主流模型做无缝集成，另一方面是可以和多种信息源做特征融合，比如14年的这篇文章，它是融合了文本评论信息，地理邻居信息，项目类别信息以及流行度等信息，具体预测公式如下：

其中， $\mathbf{q}_w$ 为文本特征的低维向量表示， $\mathbf{v}_i$ 为地理邻居的低维向量表示， $\mathbf{d}_c$ 为项目类别的低维特征表示。

总结

首先因为低秩假设，一个用户可能有另外一个用户与他线性相关（物品也一样），所以用户矩阵完全可以用一个比起原始UI矩阵更低维的矩阵表示，pureSVD就可降维得到两个低维矩阵，但是此方法要求原始矩阵稠密，因此要填充矩阵（只能假设值），因此有了funkSVD直接分解得到两个低维矩阵。因为用户,物品的偏置爱好问题所以提出了biasSVD。因为用户行为不仅有评分，且有些隐反馈（点击等），所以提出了SVD++。因为假设用户爱好随时间变化，所以提出了timeSVD。因为funkSVD分解的两个矩阵有负数，现实世界中不好解释，所以提出了NMF。为了符合TopN推荐，所以提出了WMF。推翻低秩假设，提出了LLORMA（局部低秩）。因为以上问题都未解决数据稀疏和冷启动问题，所以需要用上除了评分矩阵之外的数据来使推荐更加丰满，即加边信息。