概述

在推荐系统中，协同过滤（CF：Collaborative Filtering）算法由于其领域无关性以及比较好的推荐效果被广泛使用；
CF模型比较常用的包括最近邻方法和因子分解算法，由于这两种算法各有优缺点；该文提出了一种策略将这两种方法进行综合建模，并且可以适用于隐式反馈数据。

已有模型

因子分解模型

因子分解模型可以将用户和物品分别映射到一个低维空间中，这样根据数据可以得到一个全局的向量表示，用于计算用户与用户、物品与物品以及用户和物品之间的相似度。
可以通过SVD分解得到向量表示，常用的方法是最优化如下问题

m i n \sum r u i \neq 0 (r u i - μ - b u - b i - p T u q i) 2 + λ (| | p u | | 2 + | | q i | | 2 + b 2 u + b 2 i)

$min \ \sum_{r_{ui}\ne0}(r_{ui}-\mu-b_u-b_i-p_u^Tq_i)^2+\lambda(||p_u||^2+||q_i||^2+b_u^2+b_i^2)$

新模型

已有模型的问题

最近邻方法根据用户已经打分过的物品，计算和这些物品最相似的物品，相当于一个局部最优问题，没有考虑全局。由于一个用户关注的物品是有限的。

因子分解模型可以得到一个全局表示，可解释性不好。

SVD模型改进

异步SVD

模型表示为

r u i = b u i + q T i (| R (u) | - 1 2 \sum j \in R (u) x j (r u j - b u j) + | N (u) | - 1 2 \sum j \in N (u) y j)

$r_{ui}=b_{ui}+q_i^T(|R(u)|^{-\frac12}\sum_{j\in R(u)}x_j(r_{uj}-b_{uj})+|N(u)|^{-\frac12}\sum_{j\in N(u)}y_j)$
其中参数

qi,xj,yj $q_i,x_j,y_j$ 都是物品在低维空间中的表示。
主要思路是将用户表示为其相关物品向量的累加。
好处

更少的参数，模型仅和物品有效个数相关，一般情况下用户个数会更多。
2.对于新用户可以解决冷启动问题，用户表示直接通过用户点击的物品得到

可解释性相对于原始模型较强

可以更有效的集成隐式反馈数据，可以通过调整隐式向量系数得到。

SVD++

为了进一步集成隐式反馈数据，可以通过直接将隐式数据反馈到模型中，

r u i = b u i + q T i (p u + | N (u) | - 1 2 \sum j \in N (u) y j)

$r_{ui}=b_{ui}+q_i^T(p_u+|N(u)|^{-\frac12}\sum_{j\in N(u)}y_j)$ 相当于对原始模型的直接改进。

模型集成

将以上两个模型集成到一起可以得到

r u i = μ + b u + b i + q T i (p u + | N (u) | - 1 2 \sum j \in N (u) y j) + | R k (u) | - 1 2 \sum j \in R k (u) w i j (r u j - b u j) + | N k (u) | - 1 2 \sum j \in N k (u) c i j

$r_{ui}=\mu+b_u+b_i+q_i^T(p_u+|N(u)|^{-\frac12}\sum_{j\in N(u)}y_j)+|R^k(u)|^{-\frac12}\sum_{j\in R^k(u)}w_{ij}(r_{uj}-b_{uj})+|N^k(u)|^{-\frac12}\sum_{j\in N^k(u)}c_{ij}$ 相当于将三层模型进行累加
1. 第一层模型：基准模型
2. 第二层模型：因子分解模型，会考虑到全局用户和物品画像
3. 第三层模型：最近邻模型，会考虑到用户本身偏置特征。

结论

在该文中作者还提出了一种评估推荐系统的方法，不在赘述。
该文提出对CF模型进行改进，改进效果针对Netfix数据取得不错效果，在实际中这种科研推进方式还是可以推荐的。
另外SVD++算法应用比较广泛，有效将显示和隐式数据进行结合，值得注意的是本文对隐式数据建模比较简单，复杂建模方法考虑相关论文。

【每周一文】Factorization Meets the Neighborhood：a Multifaceted Collaborative Filtering Model

概述

已有模型

最近邻方法

因子分解模型

新模型

已有模型的问题

最近邻模型改进

改进1

改进2

改进3

改进4

求解算法

SVD模型改进

异步SVD

SVD++

模型集成

结论

猜你喜欢