推荐系统

1. 分类

CF Bases
- Memory Based: User CF, Item CF
- Model Based
Content Based
Knowledge Based
Demographic Based

2. 评分矩阵

评分矩阵的类型有：连续值、整形、离散值、二元、一元(隐反馈)
- 离散值举例：trongly Disagree、Disagree、Neutral、Agree、Strongly Agree
- 对于隐反馈来说，缺失的部分在初始的时候一般会被替换为0，若不替换为0会带来严重的过拟合问题
用户对于物品的评分符合现实生活中的长尾现象，只有少部分的物品会被大量的评价，而大量的物品很少被评价
在大多数情况下，这些被大量的评分的物品相对而言属于利润较少的物品，另一方面那些低频的物品往往有着大量的利润，在这样的条件下，推荐这些低频商品会带来更大的利润
大多数的推荐系统相对于低频物品会推荐高频物品，这种现象会导致推荐系统多样性的降低，频繁推荐这些流行物品，会使得用户感觉厌烦

3. 基于邻域的推荐系统

基于领域的推荐系统基于如下假设：相似用户具有具有相似的评分行为，相似的物品受到的评分类似
基于用户与基于物品的最大不同点在于，基于用户的其评价来自于相似用户，而基于物品评分来自于自己
评分的长尾分布的现象表明经常被用户访问的商品在数目上是较少的，这就会严重影响基于邻域的协同过滤方法，因为近邻经常是基于常被访问的物品，在很多情况下对于高频物品的评分并不能代表低频物品的评分，这会导致用预测出 misleading result

3. 1 基于用户的协同过滤

相似用户对于物品的打分类似
用户A对于物品的B的评价来来自于与用户A相似的用户群体对于物品B的评价的加权平均

3.1.1 相似函数

Jaccard 系数
$\begin{matrix} (1) & s i m (u, v) = \frac{N (u) \cap N (v)}{\sqrt{| N (u) | | N (v) |}} \end{matrix}$ $sim(u, v) = \frac {N(u)\cap N(v)} {\sqrt {|N(u)||N(v)|}}\tag1$
用户平均评分
$\begin{matrix} (2) & μ_{u} = \frac{\sum_{k \in I_{u}} r_{u k}}{| I_{u} |} \end{matrix}$ $\mu_u = \frac{\sum_{k\in I_u}r_{uk}}{|I_u|}\tag2$
皮尔逊相关系数/去中心化的余弦相似度
$\begin{matrix} (3) & s i m (u, v) = \frac{\sum_{k \in I_{u} \cap I_{v}} (r_{u k} - μ_{u}) \cdot (r_{v k} - μ_{v})}{\sqrt{\sum_{k \in I_{u} \cap I_{v}} (r_{u k} - μ_{u})^{2}} \cdot \sqrt{\sum_{k \in I_{u} \cap I_{v}} (r_{v k} - μ_{v})^{2}}} \end{matrix}$ $sim(u, v)= \frac{\sum_{k\in I_u\cap I_v}(r_{uk} - \mu_u)\cdot(r_{vk} - \mu_v)} {\sqrt{\sum_{k\in I_u\cap I_v}(r_{uk} - \mu_u)^2}\cdot\sqrt{\sum_{k\in I_u\cap I_v}(r_{vk} - \mu_v)^2}}\tag3$
余弦相似度
&nbsp&nbsp&nbsp&nbsp5, 6为两种形式的余弦相似度，区别是，在用户u、v评分物品的交集在还是用户u评分物品的全集上做normalization

$\begin{matrix} (4) & s i m (u, v) = \frac{N (u) \cap N (v)}{\sqrt{| N (u) | | N (v) |}} \end{matrix}$

$\begin{matrix} (5) & s i m (u, v) = \frac{\sum_{k \in I_{u} \cap I_{v}} r_{u k} \cdot r_{v k}}{\sqrt{\sum_{k \in I_{u} \cap I_{v}} r_{u k}^{2}} \cdot \sqrt{\sum_{k \in I_{u} \cap I_{v}} r_{v k}^{2}}} \end{matrix}$

$\begin{matrix} (6) & s i m (u, v) = \frac{\sum_{k \in I_{u} \cap I_{v}} r_{u k} \cdot r_{v k}}{\sqrt{\sum_{k \in I_{u}} r_{u k}^{2}} \cdot \sqrt{\sum_{k \in I_{u}} r_{v k}^{2}}} \end{matrix}$
- Jaccard系数没有考虑到用户评分数据的差异性
- 有些用户对所有物品评分都很高很容易满足，而有些用户口味挑剔，他对很多物品评分都很低。皮尔逊相关系数做了一个mean-centering，较余弦相似度更能捕捉用户评分行为之间的差异，可以使得更好刻画用户评分行为的global pattern
Discount similarity

$\begin{matrix} (7) & s i m (u, v) = s i m (u, v) \cdot \frac{m i n {| I_{u} \cap I_{v} |, β}}{β} \end{matrix}$
- sim(u, v)会受到用户u与用户公共评分物品数目 $|I_u\cap I_v|$ 影响，如果用户u与用户v只有少部分相似的公共评分物品，将sim(u,v)乘以一定的系数减少重要性，这种方法被叫做significance weighting.

3.1.2 预测函数

基础
$\begin{matrix} (1) & {\hat{r}}_{u j} = \sum_{v \in P_{u} (j)} s i m (u, v) r_{u j} \end{matrix}$ $\hat{r}_{uj} = \sum_{v\in P_u(j)} sim(u, v)r_{uj} \tag 1$
去中值
$\begin{matrix} (2) & {\hat{r}}_{u j} = μ_{u} + \frac{\sum_{v \in P_{u} (j)} s i m (u, v) \cdot s_{v j}}{\sum_{v \in P_{u} (j)} | s i m (u, v) |} \end{matrix}$ $\hat{r}_{uj} = \mu_u + \frac {\sum_{v\in P_u(j)}sim(u, v) \cdot s_{vj}}{\sum_{v\in P_u(j)} |sim(u, v)|}\tag{2}$
$\begin{matrix} (3) & s_{v j} = r_{v j} - μ_{v} \end{matrix}$ $s_{vj}=r_{vj}-\mu_v\tag{3}$
预测可以更好的利用已观测到的评分，他也会影响物品评分的相对排序
Z-socre
$\begin{aligned} (4) & σ_{μ} = \sqrt{\frac{\sum_{j \in I_{u}} (r_{u j} - μ_{u})^{2}}{| I_{u} | - 1}} \\ (5) & z_{u j} = \frac{r_{u j} - μ_{u}}{σ_{μ}} = \frac{s_{u j}}{σ_{μ}} \\ (6) & {\hat{r}}_{u j} = μ_{u} + σ_{u} \frac{\sum_{v \in P_{u} (j)} s i m (u, v) \cdot z_{v j}}{\sum_{v \in P_{u} (j)} | s i m (u, v) |} \end{aligned}$ $\begin{align} \sigma_\mu=\sqrt{\frac{\sum_{j\in I_u}(r_{uj}-\mu_u)^2}{|I_u|-1}}\tag4 \\ z_{uj}=\frac{r_{uj}-\mu_u}{\sigma_\mu}=\frac{s_{uj}}{\sigma_\mu} \tag5 \\ \hat{r}_{uj} = \mu_u + \sigma_u\frac {\sum_{v\in P_u(j)}sim(u, v) \cdot z_{vj}}{\sum_{v\in P_u(j)} |sim(u, v)|}\tag{6} \end{align}$
注意到 $\sigma_u$ ，更一般的是当使用 $g(\cdot)$ 对于评分进行变换，在最后的预测函数要应用他的反函数
Z-score会带来一定的预测性能提高，但他也有问题，例如超出范围的评分

3.1.3 相似用户(Peer Group)的选择

最简单的选择方法是选择相似度最高的k个用户，这样选择出来的用户可能与目标关联性很小或负相关。
弱相关用户可能导致预测结果出错，Furthermore,negatively correlated ratings often do not have as much predictive value in terms of potential inversion of the ratings。
一般而言，需要将弱相关与负相关用户过滤掉。

3.1.4 长尾现象

长尾现象指的是，只有少数的物品被大量的用户评分（购买、发生行为），而大量的物品只有少数用户有过行为。
长尾现象普遍存在于评分中，一些流行物品会普遍的存在于用户的评分商品中，这些评分有时候会降低推荐系统的质量，因为他们对于不同用户没有区分性。
与IDF类似，可以使用 Inverse User Frequence， $m_j$ 为物品j评分的数目，m为用户的总数，物品j的权值为

$\begin{matrix} (1) & w_{j} = l o g (\frac{m}{m_{j}}) \end{matrix}$ $w_j=log(\frac{m}{m_j})\tag1$
$\begin{matrix} (2) & s i m (u, v) = \frac{\sum_{k \in I_{u} \cap I_{v}} w_{k} (r_{u k} - μ_{u}) \cdot (r_{v k} - μ_{v})}{\sqrt{\sum_{k \in I_{u} \cap I_{v}} (r_{u k} - μ_{u})^{2}} \cdot \sqrt{\sum_{k \in I_{u} \cap I_{v}} (r_{v k} - μ_{v})^{2}}} \end{matrix}$ $sim(u, v)= \frac{\sum_{k\in I_u\cap I_v}\color{red}{w_k}(r_{uk} - \mu_u)\cdot(r_{vk} - \mu_v)} {\sqrt{\sum_{k\in I_u\cap I_v}(r_{uk} - \mu_u)^2}\cdot\sqrt{\sum_{k\in I_u\cap I_v}(r_{vk} - \mu_v)^2}}\tag2$
在计算相似度的时候，乘以权值

3. 2 基于物品的协同过滤

用户对于相似物品的评价相似，基于物品之间的相似性
物品A与物品B的相似度由共同评分过A、B的用户决定
用户A对于物品的B的评价来自于其历史访问物品与物品B的加权
物品相似度函数：
- AdjustedCosine 为去中心化的余弦相似度， $r_{ui}$ 减去用户 $u_i$ 评分的均值
  $\begin{matrix} (1) & A d j u s t e d C o s i n e (i, j) = \frac{\sum_{u \in U_{i} \cap U_{j}} s_{u i} \cdot s_{u j}}{\sqrt{\sum_{u \in U_{i} \cap U_{j}} s_{u i}^{2}} \cdot \sqrt{\sum_{u \in U_{i} \cap U_{j}} s_{u j}^{2}}} \end{matrix}$ $AdjustedCosine(i, j)=\frac{\sum_{u \in U_i\cap U_j}s_{ui}\cdot s_{uj}}{\sqrt{\sum_{u \in U_i\cap U_j} s_{ui}^2 }\cdot \sqrt{\sum_{u \in U_i\cap U_j} s_{uj}^2 }}\tag1$
- 皮尔逊相关系数， $r_{ui}$ 减去物品 $i_i$ 评分的均值，一般而言adjust cosine的性能更好
预测
- 与基于用户的CF利用相似用户的评分不同，基于物品的CF只利用自己的历史评分
  $\begin{matrix} (2) & {\hat{r}}_{u t} = \frac{\sum_{j \in Q_{t} (u)} s i m (j, t) r_{u j}}{\sum_{j \in Q_{t} (u)} | s i m (j, t) |} \end{matrix}$ $\hat{r}_{ut}=\frac{\sum_{j\in Q_t(u)}sim(j, t)r_{uj}}{\sum_{j\in Q_t(u)}|sim(j, t)|}\tag2$
- 相似物品具有相同的元素，用户对于这类物品的历史评分能够反映用户对于这类物品的兴趣

3.3 时间复杂度

m,n 分别为用户数与物品数， $n\prime$ 为用户最多的评分数目， $m\prime$ 为物品最多的评分数目，则 $n\prime$ 为计算一对用户的时间复杂度， $m\prime$ 为计算一对物品的时间复杂度
基于用户的CF，单个用户时间复杂度 $O(m*n\prime)$ ，所有用户时间复杂度 $O(m^2*n\prime)$ ，空间复杂度 $O(m^2)$
基于物品的CF，单个用户时间复杂度 $O(n*m\prime)$ ，所有用户时间复杂度 $O(n^2*m\prime)$ ，空间复杂度 $O(n^2)$
User CF、Item CF推荐 K Item 的时间在 $O(k * n)$ ，Top K user $O(k * m)$

3.4 比较

基于用户	基于物品
两个用户共同看过某个物品，则这两个用户具有一定的关联	两个物品被同一个用户看过，那么这两个物品有一定的关联
寻找相似用户	寻找相似物品
推荐相似用户买过的物品	根据用户历史兴趣推荐相似物品
相比ItemCF多样性更好，会增加惊喜度，没有惊喜度用户很快会对类似的物品感到厌倦
可解释弱，只能给出近邻的评分，未从自己的兴趣出发	可解释性强，e.g.你观看了A,所以向你推荐类似的B
一般网站的用户数大于物品数,需要更大的内存和计算量	只需计算物品之间的相似关系，所以对内存和计算量的要求小了很多
具备热点效应,推荐好友圈访问的物品，实时性强，利于热点扩散	个性化
能缓解新物品冷启动问题，只要新物品被小圈子的用户评分过，他就能扩散出去	能缓解用户冷启动问题，只要用户对物品有过评分，就可以推荐相似物品，而新物品不更新相似度无法推荐
用有新行为不一定造成推荐结果实时变化，需要先离线计算相似度矩阵再影响推荐结果	用户有新行为一定造成推荐结果实时变化，改变用户历史访问之后，根据该物品可以推荐相似物品

3.5 优缺点

优点
- 简单、易于实施
- 可解释性强，尤其是基于物品的CF
- 对于新物品、用户的加入相对而言较为稳定
- 可做增量学习扩展
缺点
- 是实际中，离线计算困难，甚至不可能，例如User CF 需要 $O(m^2)$ 的空间复杂度，太浪费存储空间，计算速度也慢。而，线上阶段的计算很方便。
- 另一个主要的缺点是，覆盖率, 数据的稀疏性会带来低覆盖率，例如用户A的近邻只对物品B，C产生过行为，那么用户A接受到的推荐只能在这些物品中。稀疏性也会降低用户相似度的可靠性，如果用户之间公共评分的物品很少，则计算出的相似度不够robust

3.6 聚类改善离线计算时间

以基于用户的CF的离线计算时间复杂度是 $O(m^2n\prime)$ ，以 $m=10^8, n\prime=100$ 为例， $O(m^2n\prime)=10^{18}$ ，一台10GHZ的计算机也需要100多天的时间来计算
使用聚类算法来降低时间复杂度，与User—CF不同的是，使用聚类之后簇的K近邻来进行预测，近邻计算局限于聚类之后的簇中，极大的降低了时间复杂度
这一方法是牺牲精度，带来时间与空间复杂度的提升，可以用聚类的粒度来权衡精度与时间复杂度
所使用的聚类方法需要能够处理大量的数据缺失问题，因为我们的评分矩阵存在大量的缺失。计算距离时，只考虑存在评分的部分，

3.7 降维

降维方法可以同时提高推荐的性能与效率，在如此稀疏的矩阵中相似度，这样得到得到相似度不够robust
降维方法可以得到隐向量的低维表示，尽管两个用户只有少数共同评份物品，可以通过他们低维的隐向量来计算距离，同时在低位计算实际复杂度也低
隐语义模型在近邻方法的应用：对行或列进行降维，降维之后用于Item CF 或 User CF 。这里的隐语义模型并不同时对行列进行降维
以 User CF为例：
- 对 $m\times n$ 的矩阵 $R$ 降维，得到 $m\times d$ 的矩阵 $R\prime$ ，将原始的空间压缩到d维空间
- 在降维之后的特征空间进行计算相似度，这样计算出的相似度更为鲁棒，计算的速度也更快
- 如何降维
  - 首先将缺失的部分替换为相应行的的平均值(用户评分的均值)
  - 进行SVD 或 PCA等方法

3.8 近邻与回归的联系

\begin{matrix} (1) & {\hat{r}}_{u j} = μ_{u} + \frac{\sum_{v \in P_{u} (j)} s i m (u, v) \cdot s_{v j}}{\sum_{v \in P_{u} (j)} | s i m (u, v) |} \end{matrix}

$\hat{r}_{uj} = \mu_u + \frac {\sum_{v\in P_u(j)}sim(u, v) \cdot s_{vj}}{\sum_{v\in P_u(j)} |sim(u, v)|}\tag{1}$
+ 用户u对物品j的评分可以看做，与其最相近的K个用户且评分过物品j的用户对j的评分的加权。如果去除

P_{u} (j)

$P_u(j)$ 这一条件，这可以看成线性回归问题。
+ 回归使用优化模型来求解系数，而近邻模型使用一种启发式的方式（用户相似度、物品相似度）

3.8.1 基于用户的K近邻回归

$w_{vu}^{user}$ 表示了评分的权重，表示对于用户u，用户v对物品j的评分对于用户u对物品j评分的产生的影响
通过优化 $(3)$ 来优化模型
$\begin{matrix} (2) & {\hat{r}}_{u j} = μ + \sum_{v \in P_{u} (j)} w_{v u}^{u s e r} (r_{v j} - μ_{v}) \end{matrix}$ $\hat{r}_{uj}=\mu+\sum_{v\in P_u(j)}w_{vu}^{user}(r_{vj}-\mu_v)\tag2$
$\begin{matrix} (3) & m i n J_{u} = \sum_{j \in I_{u}} (r_{u i} - {\hat{r}}_{u j})^{2} \end{matrix}$ $min J_u=\sum_{j\in I_u}(r_{ui}-\hat r_{uj})^2\tag3$

3.8.2 基于物品的K近邻回归

\begin{matrix} (4) & {\hat{r}}_{u t} = \sum_{v \in Q_{t} (u)} w_{j t}^{t e m} \cdot r_{u j} \end{matrix}

$\hat{r}_{ut}=\sum_{v\in Q_t(u)}w_{jt}^{tem}\cdot r_{uj}\tag4$

\begin{matrix} (5) & m i n J_{u} = \sum_{u \in U_{t}} (r_{u t} - {\hat{r}}_{u t})^{2} \end{matrix}

$min J_u=\sum_{u\in U_t}(r_{ut}-\hat r_{ut})^2\tag5$

3.9 图算法

3.9.1 用户-物品图

用户-物品图是一个无向二部图，图中所有的连边都只存在与用户与物品之间，用户邻居不在需要评分过很多同样的物品，只需二者之间存在足够的最短路径
随机游走定义近邻
Katz Measure
$\begin{matrix} (1) & K a t z (i, j) = \sum_{t = 1}^{\infty} β^{t} \cdot n_{i j}^{(t)} \end{matrix}$ $Katz(i, j)=\sum_{t=1}^\infty \beta^t\cdot n_{ij}^{(t)}\tag1$
$\beta$ 为惩罚系数，惩罚过长的路径， $n_{ij}^{(t)}$ 为结点i,j距离为为t的路径个数
若A是无向图的邻接矩阵
$K = \sum_{i = 1}^{\infty} (β A)^{i} = (I - β A)^{- 1} - I$ $K = \sum_{i=1}^{\infty}(\beta A)^i=(I-\beta A)^{-1}-I$

基于近邻的推荐系统