推荐系统学习

目前的推荐系统分为三类：

1. 非个性化推荐系统

特点：基于统计分析技术，推荐销售排行，这样所有的用户看到的推荐信息都是一样的，或者编辑推荐，以及基于平均数值评分。

2. 半个性化推荐系统

特点：根据用户当前的浏览行为或用户当前的购物车信息产生推荐结果

3. 完全个性化推荐系统

特点：根据用户历史信息，结合用户当前行为，为用户完全产生个性化的推荐服务

做推荐系统的时候，输入信息分为多种类型：

1). 隐私浏览输入；2). 显示浏览输入；3). 关键字/商品属性输入；4). 用户评分输入；5). 用户文本评价输入；6). 编辑推荐输入；7). 用户购买历史输入

输出形式表示为：

a). 相关商品输出； b). 个体文本评价输出；c). 个体评分输出；d). 平均数值评分输出； e). 电子邮件输出 f). 编辑推荐输出

电子商务推荐算法包括：

1.内存推荐算法：

User_based协同过滤推荐、Item_based协同过滤推荐、基于Horting图技术的协同过滤推荐、

2. 基于模型的推荐算法：

Cluster_based协同过滤推荐、基于降维的协同过滤推荐、基于Bayesian网络技术的推荐、关联规则推荐

内存推荐算法的不足：

当用户数据库非常庞大的时候，难以保证实时性

基于模型的推荐算法的不足：

模型相对于原始用户数据而言具有滞后效应，要保证模型的有效性，需周期性的对模型进行更新

下面分别介绍下几个典型的算法

1.User_based协同过滤

基于假设：如果用户对一些项的评分比较相似，则他们对其他项的评分也相似。

User_based协同过滤处理分为三个阶段：

数据表示------> 最近邻查询（度量用户相似度）------>推荐产生

度量用户自己相似性方法：

1）余弦相似性

设用户 $i$ 和用户 $j$ 在n维项空间上的评分分别表示为向量 $\vec{i}$ 、 $\vec{j}$

则用户 $i$ 和用户 $j$ 之间的相似性

$sim(i,j)=cos( \vec{i},\vec{j}) =\frac{\vec{i}\cdot\vec{j}}{|\vec{i}|\times|\vec{j}|}$

分子为两个用户评分向量的内积，分母为用户向量模的乘积

2) 相关相似性

用户 $i$ 和用户 $j$ 共同评分过的项集合用 $I_{ij}$ 表示

用pearson相关系数度量

$sim(i,j)={\sum_{c\in{I_{ij}}}\time{(R_{i,c}-\bar{R_i})}{(R_{j,c}-\bar{R_j})}} /{\surd{\sum_{c\in{I_{ij}}}{(R_{i,c}-\bar{R_i})}^2}\surd{\sum_{c\in{I_{ij}}}{(R_{j,c}-\bar{R_j})}^2}}$

$R_{i,c}$ 表示用户 $i$ 对项c的评价， $\bar{R_i}$ 和 $\bar{R_j}$ 分别表示用户 $i$ 和用户 $j$ 的平均评分。

3) 修正的余弦相似性

在余弦相似性度量方法中没有考虑不同用户的评分尺度问题，修正的余弦相似性度量方法通过减去用户对项的平均评分改善上述缺陷：

设用户 $i$ 和用户 $j$ 共同评分过的项集合用 $I_{ij}$ 表示， $I_{i}$ 和 $I_{j}$ 分别表示对用户 $i$ 和用户 $j$ 评分过的项集合。

$sim(i,j)={\sum_{c\in{I_{ij}}}\time{(R_{i,c}-\bar{R_i})}{(R_{j,c}-\bar{R_j})}} /{\surd{\sum_{c\in{I_{ij}}}{(R_{i,c}-\bar{R_i})}^2}\surd{\sum_{c\in{I_{ij}}}{(R_{j,c}-\bar{R_j})}^2}}$

$R_{i,c}$ 表示用户 $i$ 对项 c 的评分， $\bar{R_i}$ 和 $\bar{R_j}$ 分别表示用户 $i$ 和用户 $j$ 的平均评分。

推荐产生：

$P_{u,i}=\bar{R_u}+{\sum_{n\in{NN_u}}sim(u,n)\times({R_{n,i}-\bar{R_n}})/{\sum_{n\in{NN_u}}\mid{sim(u,n)}\mid{}}$

设用户 $u$ 的最近邻居集合用 $NN_{u}$ 表示，则用户 $u$ 对项 $i$ 的预测评分 $P_{u,i}$ 可以通过用户 $u$ 对最近邻居集合 $NN_{u}$ 中项的评分得到。

$sim(u,n)$ 表示用户 $u$ 与用户 $n$ 之间的相似性， $R_{n,i}$ 表示用户 $n$ 对项 $i$ 的评分， $\bar{R_u}$ 和 $\bar{R_n}$ 分别表示用户 $u$ 与用户 $n$ 对项的平均评分。

通过上述方法预测用户对所有未评分项的评分，然后选择预测评分最高的前若干个项作为推荐结果反馈给当前用户。

若使用交易数据作输入无法预测用户评分，则采用如下方法：

1) 最频项推荐，用当前用户每一个最近邻居的购买记录，对其购买的商品进行计数，选择频次高未购买的推荐

2) 关联规则推荐

Item_based协同过滤算法

基于假设：如果大部分用户对一些项的评分比较相似，则当前用户对这些项的评分也比较相似。

实现阶段：度量项间相似性

1.最近邻查询核心

1). 余弦相似性

$sim(i,j)=cos( \vec{i},\vec{j}) =\frac{\vec{i}\cdot\vec{j}}{|\vec{i}|\times|\vec{j}|}$

项评分看作为m 维用户空间上的向量，如果用户对项没有评分，则将用户对项的评分设为0，设项 $i$ 和项 $j$ 在m维用户空间上的评分分别表示为向量 $\vec{i}$ 、 $\vec{j}$

2). 相关相似性

$sim(i,j)={\sum_{c\in{U_{ij}}}\time{(R_{c,i}-\bar{R_i})}{(R_{c,j}-\bar{R_j})}} /{\surd{\sum_{c\in{U_{ij}}}{(R_{c,i}-\bar{R_i})}^2}\surd{\sum_{c\in{U_{ij}}}{(R_{c,j}-\bar{R_j})}^2}}$

$R_{c,i}$ 表示用户c 对项 $i$ 的评分， $\bar{R_i}$ 和 $\bar{R_j}$ 分别表示项 $i$ 和项 $j$ 的平均评分。

3). 修正的余弦相似性

设对项 $i$ 和项 $j$ 共同评分过的用户集合用 $U_{ij}$ 表示， $U_{i}$ 和 $U_{j}$ 分别表示对项 $i$ 和项 $j$ 评分过的用户集合。

$sim(i,j)={\sum_{c\in{U_{ij}}}\time{(R_{c,i}-\bar{R_c})}{(R_{c,j}-\bar{R_c})}} /{\surd{\sum_{c\in{U_{ij}}}{(R_{c,i}-\bar{R_c})}^2}\surd{\sum_{c\in{U_{ij}}}{(R_{c,j}-\bar{R_c})}^2}}$