基于内容的推荐系统

在本文预处理之后，关键词被转化为词向量，对于文档的表示可使用词袋模型，并使用tf-idf(tf*idf)

\begin{matrix} (1) & t f = \frac{n_{w o r d}}{n} \end{matrix}

$tf = \frac{n_{word}}{n}\tag1$

\begin{matrix} (2) & i d f = l o g \frac{n_{d o c}}{n_{c o n t a i n_w o r d}} \end{matrix}

$idf=log\frac{n_{doc}}{n_{contain\_word}} \tag2$
注意，在物品的描述来源于不那么可信的渠道时，每一个单词的权值需要适当的降低，可以使用一些函数来降低权值

\begin{matrix} (3) & f (x_{i}) = \sqrt{x_{i}} \end{matrix}

$f(x_i)=\sqrt{x_i} \tag3$

\begin{matrix} (4) & f (x_{i}) = l o g (x_{i}) \end{matrix}

$f(x_i)=log(x_i) \tag4$
tf-idf模型变为：

\begin{matrix} (5) & f (x_{i}) * i d f (x_{i}) \end{matrix}

$f(x_i)*idf(x_i)\tag5$

特征选择与加权的意义在于在文档的向量表示中只保留最具有信息的那部分单词。充满噪音的单词往往会带来过拟合，当可供训练的文档数过少时，模型很容易过拟合，减少特征空间能够缓解这种过拟合。(选择300-500个词左右)

Gini 指数
令t为评分的数目，对于单词w， $p_i(w)$ 为出现该单词时，评分为i的概率
$\begin{matrix} (6) & G i n i = 1 - \sum_{i = 1}^{t} p_{i} (w)^{2} \end{matrix}$ $Gini=1-\sum_{i=1}^{t}p_i(w)^2 \tag6$
Gini系数越小，它越重要
熵
$\begin{matrix} (7) & E n t r o p y = - \sum_{i = 1}^{t} p_{i} (w) l o g (p_{i} (w)) \end{matrix}$ $Entropy=-\sum_{i=1}^{t}p_i(w)log(p_i(w))\tag7$
熵系数越小，它越重要
$X^2$ 系数
对于单词w，他出现的概率为0.2，用户购买物品的概率为0.1，若二者无关，总共有1000个记录，则：

	单词w出现	单词w不出现
用户购买了物品	10000.10.2=20	10000.10.89=80
用户没有购买物品	10000.90.2=180	10000.90.8=720

上述假设单词与用户购买物品无关，这样的单词其实对于我们的学习没有帮助，而现实中，二者可能是高度相关的

	单词w出现	单词w不出现
用户购买了物品	$O_1=60$	$O_1=40$
用户没有购买物品	$O_1=140$	$O_1=760$

$x^2$ 统计衡量了，观测值与期望值的偏离

\begin{matrix} (8) & x^{2} = \sum_{i = 1}^{p} \frac{(O_{i} - E_{i})^{2}}{E_{i}} \end{matrix}

$x^2=\sum_{i=1}^p\frac{(O_i-E_i)^2}{E_i}\tag8$

x^{2}

$x^2$ 值越大，单词与物品相关程度越高
+ Normalized deviation
上述指标忽略了评分之间的相对次序，对于粗粒度的哦名分来说，Normalized deviation是一种合适的指标

μ^{+} (w)

$\mu^+(w)$ 为包含单词w的评分均值，

μ^{-} (w)

$\mu^-(w)$ 为不包含w的评分均值，

σ^{2}

$\sigma^2$ 为所有评分的方差

\begin{matrix} (9) & D e v (w) = \frac{| μ^{+} (w) - μ^{-} (w) |}{σ} \end{matrix}

$Dev(w)=\frac{|\mu^+(w)-\mu^-(w)|}{\sigma}\tag9$
Dev(w) w越重要

特征加权可以看成一种特征选择的一种软化版本
最简单的加权方式是基于特征选择的函数进行修改，如:

\begin{matrix} (10) & g (w) = a - G i n i (w) \end{matrix}

$g(w)=a-Gini(w\tag{10})$

\begin{matrix} (11) & w = f (w) * g (w) \end{matrix}

$w=f(w)*g(w)\tag{11}$
通过调整a的值，可以控制加权过程的的敏感度，a越小越敏感

这部分的学习过程其实就是对于物品文档表示后的向量进行文本分类或文本回归，为每一个用户建立一个分类器或者回归器，具体分类器的使用不再赘述。

基于内容的协推荐系统的优点：

基于内容的协推荐系统的优点：

过度特化缺乏惊喜度：
基于内容的推荐系统试图寻找与用户已评分物品类似的物品，而推荐系统的惊喜度得不到满足，只能推荐类似物品
基于协同过滤的推荐系统使用peer group来推荐，能带来一定的惊喜度
新用户的冷启动无法解决：
基于内容的推荐系统需要足够的评分防治过拟合

基于内容的推荐系统一般不单独使用与其他的模型一起使用，构成混合推荐系统