推荐系统——基于邻域的算法

基于邻域的算法包括基于用户的协同过滤算法和基于物品的协同过滤算法。
基于用户的协同过滤算法：给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于物品的协同过滤算法：给用户推荐和他之前喜欢的物品相似的物品。

基于用户的协同过滤算法

该算法主要分为两个步骤：
1. 找到和目标用户兴趣相似的其他用户集合
2. 找到这个集合中用户喜欢的且目标用户没有见过的物品推荐给目标用户

步骤1就是计算两个用户的相似度，即通过他们行为的相似度计算兴趣相似度，假设两个用户 $u$ 和 $v$ ，则可以通过Jaccard系数计算相似度：

w_{u v} = \frac{| N (u) \cap N (v) |}{| N (u) \cup N (v) |}

$w_{uv} = \frac{|N(u)\cap N(v)|}{|N(u)\cup N(v)|}$
也可以计算余弦相似度：

w_{u v} = \frac{| N (u) \cap N (v) |}{\sqrt{| N (u) | | N (v) |}}

$w_{uv} = \frac{|N(u)\cap N(v)|}{\sqrt{|N(u)||N(v)|}}$
其中，

N (u), N (v)

$N(u),N(v)$ 为用户

u, v

$u,v$ 有过正反馈行为的物品集合。
得到用户相似度后，UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。
用户

u

$u$ 对物品

i

$i$ 的感兴趣程度为：

p (u, i) = Σ_{v \in S (u, K) \cap N (i)} w_{u v} r_{v i}

$p(u,i) = \Sigma_{v\in S(u, K)\cap N(i)}w_{uv}r_{vi}$
其中,

S (u, K)

$S(u,K)$ 包含和用户

u

$u$ 兴趣最接近的

K

$K$ 个用户，

N (i)

$N(i)$ 为对物品

i

$i$ 有过行为的用户集合，

r_{v i}

$r_{vi}$ 为用户

v

$v$ 对物品

i

$i$ 的兴趣。

算法分为两个步骤：
1. 计算物品之间的相似度
2. 根据物品相似度和用户的历史行为给用户生成推荐列表

物品相似度的定义：

w_{i j} = \frac{| N (i) \cap N (j) |}{| N (i) |}

$w_{ij} = \frac{|N(i)\cap N(j)|}{|N(i)|}$
公式可以理解为喜欢物品

i

$i$ 的用户有多少比例喜欢物品

j

$j$ 。
为了避免推荐热门物品，可使用下述公式：

w_{i j} = \frac{| N (i) \cap N (j) |}{\sqrt{| N (i) | | N (j) |}}

$w_{ij}=\frac{|N(i)\cap N(j)|}{\sqrt{|N(i)||N(j)|}}$
这样，对于热门的物品

j

$j$ ，通过降低权重来进行惩罚。
在得到物品相似度后，ItemCF通过下式计算用户

u

$u$ 对物品

j

$j$ 的兴趣：

p_{u j} = Σ_{i \in N (u) \cap S (j, K)} w_{j i} r_{u i}

$p_{uj}=\Sigma_{i\in N(u)\cap S(j,K)}w_{ji}r_{ui}$
其中，

N (u)

$N(u)$ 为用户

u

$u$ 喜欢的物品的集合，

S (j, K)

$S(j,K)$ 为和物品

j

$j$ 最相似的

K

$K$ 个物品的集合，

r_{u i}

$r_{ui}$ 为用户

u

$u$ 对物品

i

$i$ 的兴趣