尽量两天弄完

线性代数

内积就是两个向量的模×余弦

$\cos (\alpha)$

UserCF, ItemFM

推荐系统学习笔记

五种常见的相似度算法：余弦相似度（cosine_similarity）、jaccard（杰卡德）相似度、编辑距离（Levenshtein）、MinHash、SimHash + 海明距离

要实现协同过滤，需要以下3个步骤：

收集用户偏好
找到相似的用户或物品
计算推荐

协同过滤遇到的问题：

稀疏性问题——因用户做出评价过少，导致算出的相关系数不准确
冷启动问题——因物品获得评价过少，导致无“权”进入推荐列表中

新用户新物品的冷启动策略：

给新用户推荐更多平均得分超高的电影；
把新电影推荐给喜欢类似电影（如具有相同导演或演员）的人。

后面这种做法需要维护一个物品分类表，这个表既可以是基于物品元信息划分的，也可是通过聚类得到的。

在这里插入图片描述

相似度可通过计算欧式距离、皮尔逊相关系数、Cosine相似度、Tanimoto相关系数来衡量:

皮尔逊相关系数（Pearson Correlation Coefficient）

相当于归一化的余弦相似度

$y)=\frac{\sum x_{i} y_{i}-n \bar{x} \bar{y}}{(n-1) S_{x} S_{y}}=\frac{n \sum x_{i} y_{i}-\sum x_{i} \sum y_{i}}{\sqrt{n \sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}} \sqrt{n \sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}}$

Cosine相似度（Cosine Similarity）

$y)=\frac{x \cdot y}{\|x\|^{2} \times\|y\|^{2}}=\frac{\sum x_{i} y_{i}}{\sqrt{\sum x_{i}^{2}} \sqrt{\sum y_{i}^{2}}}$

Tanimoto系数（Tanimoto Coefficient）

Tanimoto系数由Jaccard系数扩展而来。

Tanimoto相似度与Bregman距离

$y)=\frac{x \cdot y}{\|x\|^{2}+\|y\|^{2}-x \cdot y}=\frac{\sum x_{i} y_{i}}{\sqrt{\sum x_{i}^{2}}+\sqrt{\sum y_{i}^{2}}-\sum x_{i} y_{i}}$

区别

在这里插入图片描述

区别	UserCF	ItemCF
场景	新闻类，短视频类，快消素材网站，社交网站	购物网站，技术博客网站
关注点	所在小组中的热门商品，注重社会化	注重用户有过行为的历史物品，注重个性化
多样性	系统多样性（覆盖率）高，注重推荐热门物品	单用户多样性高，容易推荐长尾物品

基于物品（Item-Based，IB） = 基于近邻 = ItemCF

基于内容（Content-Based）与基于近邻：

相同点
- 都是在item的基础上做相似度计算
不同点
- CB用的是物品本身的特征
- ItemCF用用户对Item的行为来构造Item特征

计算方式

鱼儿的博客

UserCF

建立物品到用户的倒排表T
根据倒排表计算用户相似度矩阵W

对于物品对应的用户 $i j$ ， $W [i] [j] + = 1$

惩罚热门物品：

$W[i][j]+=\frac{1}{1+|N(i)|}$

ItemCF

建立用户到物品倒排表T
构建物品相似度矩阵。 $w_{ij}$ 若不为0，表示有共同的用户对这个物品进行了评分。

LFM

SVD

应用
- 数据压缩
- 去除噪声
$A=U\Sigma V^T$
- $U^{\mathrm{T}}=I$
- $V^{\mathrm{T}}=I$
- $\Sigma=\operatorname{diag}\left(\sigma_{1}, \sigma_{2}, \cdots, \sigma_{p}\right)$
- $\sigma_{1} \geqslant \sigma_{2} \geqslant \cdots \geqslant \sigma_{p} \geqslant 0$
- $p=\min (m, n)$
求解步骤
- 确定 $V$ 和 $\Sigma$
  - $V^{\mathrm{T}}\left(A^{\mathrm{T}} A\right) V=\Lambda$
  - 计算 $\Lambda$ 特征值的平方根
    - $\sigma_{j}=\sqrt{\lambda_{j}}, \quad j=1,2, \cdots, n$
    - $\Sigma₁=diag(\sigma₁, \sigma₂, \cdots,\sigma_r)$
    - $\Sigma=\left[\begin{array}{ll}\Sigma_{1} & 0 \\ 0 & 0\end{array}\right]$
  - $V = [V ₁ V ₂]$ , 其中 $V ₁$ 为 $r$ 列
- 确定 $U$
  - $u_{j}=\frac{1}{\sigma_{j}} A v_{j}, \quad j=1,2, \cdots, r$
  - $U_{1}=\left[\begin{array}{llll}u_{1} & u_{2} & \cdots & u_{r}\end{array}\right]$
  - $V_{1}=U_{1} \Sigma_{1}$
紧凑奇异值分解
- 无损压缩
截断奇异值分解
- 有损压缩

PCA

没时间看统计学习方法了，看了这个野博客：

机器学习数学基础：从奇异值分解 SVD 看 PCA 的主成分

$X$ 减去每列均值做零中心化，得到协方差矩阵（对称矩阵，半正定矩阵（所有特征值>=0）），然后做特征分解，得到特征向量矩阵 $Q$

$\begin{aligned} \mathbf{C} &=\frac{\mathbf{X}^{\top} \mathbf{X}}{m-1} \\ &=\mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^{-1} \end{aligned}$

式中 $m$ 表示 $m$ 个样本，上面除以 $m - 1$ 是为了无偏估计。

$Q$ 的前K个向量就是我们要找的主成分PC。将数据投影到PC上去，即 $Y = X Q$ ，投影后的数据的协方差：

$\begin{aligned} \mathbf{C}_{\mathbf{Y}} &=\frac{\mathbf{Y}^{\top} \mathbf{Y}}{m-1} \\ &=\frac{\mathbf{Q}^{\top} \mathbf{X}^{\top} \mathbf{X} \mathbf{Q}}{m-1} \\ &=\mathbf{Q}^{\top} \mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^{-1} \mathbf{Q} \\ &=\mathbf{\Lambda} \end{aligned}$

以上做法就是常见的对协方差矩阵做特征分解的操作。工业上（详见sklearn代码）的操作是更一般的对数据矩阵做SVD。

众所周知，SVD张这样：

$X=U\Sigma V^T$

$\begin{aligned} \mathbf{C} &=\frac{\mathbf{X}^{\top} \mathbf{X}}{m-1} \\ &=\frac{\left(\mathbf{V} \mathbf{\Sigma} \mathbf{U}^{\top}\right)\left(\mathbf{U} \mathbf{\Sigma} \mathbf{V}^{\top}\right)}{m-1} \\ &=\frac{\mathbf{V} \mathbf{\Sigma}^{2} \mathbf{V}^{\top}}{m-1} \\ &=\frac{\mathbf{V} \mathbf{\Sigma}^{2} \mathbf{V}^{-1}}{m-1} \end{aligned}$

然后和比一下：

$\begin{aligned} \mathbf{C} &=\frac{\mathbf{X}^{\top} \mathbf{X}}{m-1} \\ &=\mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^{-1} \end{aligned}$

就会发现，我们想要的主成分就是

$Q=\frac{V}{\sqrt{m-1}}$

同理：

$\mathbf{\Lambda}=\frac{\boldsymbol{\Sigma}^{2}}{m-1}$

笔记：

协方差矩阵求解公式
- $\Sigma=\operatorname{cov}(\boldsymbol{x}, \boldsymbol{x})=E\left[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}}\right]$
总体PCA
- $m$ 维向量 $x$ 到 $m$ 维向量 $y$ 的线性变换
  - $y_{i}=\alpha_{i}^{\mathrm{T}} \boldsymbol{x}=\alpha_{1 i} x_{1}+\alpha_{2 i} x_{2}+\cdots+\alpha_{m i} x_{m}$
  - 满足
    - $A$ 是标准正交基
    - $cov(y_i,y_j)=0(i\neq j)$
    - $y ₁$ 方差最大,为第一主成分,以此类推
- 求解
  - 第一主成分最大 $\operatorname{var}\left(\alpha_{1}^{\mathrm{T}} \boldsymbol{x}\right)=\alpha_{1}^{\mathrm{T}} \Sigma \alpha_{1}$
  - 问题定义
    - $\begin{array}{ll}\max _{\alpha_{1}} & \alpha_{1}^{\mathrm{T}} \Sigma \alpha_{1} \\ \text { s.t. } & \alpha_{1}^{\mathrm{T}} \alpha_{1}=1\end{array}$
  - 定义拉格函数
    - $\alpha_{1}^{\mathrm{T}} \Sigma \alpha_{1}-\lambda\left(\alpha_{1}^{\mathrm{T}} \alpha_{1}-1\right)$
  - 对 $a ₁$ 求导令其为0, 得到
    - $\Sigma \alpha_{1}-\lambda \alpha_{1}=0$
  - 其实就是特征值和特征向量
- 结论
  - $x$ 的第 $k$ 主成分是协方差矩阵 $\Sigma$ 第 $k$ 特征值
样本PCA
- 对样本数据规范化
  - $x_{i j}^{*}=\frac{x_{i j}-\bar{x}_{i}}{\sqrt{s_{i i}}}, \quad i=1,2, \cdots, m ; \quad j=1,2, \cdots, n$
  - $\bar{x}_{i}=\frac{1}{n} \sum_{j=1}^{n} x_{i j}, \quad i=1,2, \cdots, m$
  - $s_{i i}=\frac{1}{n-1} \sum_{j=1}^{n}\left(x_{i j}-\bar{x}_{i}\right)^{2}, \quad i=1,2, \cdots, m$
- 样本协方差矩阵 $S$ 就是样本相关矩阵 $R$
  - $R=\frac{1}{n-1} X X^{\mathrm{T}}$
- 传统方法: 对协方差矩阵做特征值分解
  - 求解 $R$ 的 $k$ 个特征值
  - $|R-\lambda I|=0$
  - 第k主成分的方差贡献率
    - $\eta_{k}=\frac{\lambda_{k}}{\sum_{i=1}^{m} \lambda_{i}}$
  - 求方差贡献率达到预订值的主成分个数 $k$
  - 求前 $k$ 个特征值对应的单位特征向量
    - $a_{i}=\left(a_{1 i}, a_{2 i}, \cdots, a_{m i}\right)^{\mathrm{T}}, \quad i=1,2, \cdots, k$
  - 求 $k$ 个样本主成分
    - $y_{i}=a_{i}^{\mathrm{T}} \boldsymbol{x}, \quad i=1,2, \cdots, k$
- 常用方法: 数据矩阵的奇异值分解
  - 野博客
    - https://mp.weixin.qq.com/s/kUlulnusW8zXfq-cXdGMWg
  - 奇异值分解的本质是求协方差矩阵 $S$ 的特征值和特征向量
  - $X^{\prime}=\frac{1}{\sqrt{n-1}} X^{\mathrm{T}}$
  - $\begin{aligned} X^{\prime \mathrm{T}} X^{\prime} &=\left(\frac{1}{\sqrt{n-1}} X^{\mathrm{T}}\right)^{\mathrm{T}}\left(\frac{1}{\sqrt{n-1}} X^{\mathrm{T}}\right) \\ &=\frac{1}{n-1} X X^{\mathrm{T}} \end{aligned}$
  - $S_{X}=X^{\prime \mathrm{T}} X^{\prime}$
  - 对 $X^\prime$ 做奇异值分解, $V$ 的列向量就是 $X^{\prime \mathrm{T}} X^{\prime}$ ( $S$ )的单位特征向量

PCA的先导知识是[[SVD]]

白化

常用来进行白化的操作有两种方式，一种是PCA whiten，另外一种是ZCA whiten。

More importantly, understanding PCA will enable us to later implement whitening, which is an important pre-processing step for many algorithms.

There is a closely related preprocessing step called whitening (or, in some other literatures, sphering) which is needed for some algorithms.

补简历出现过的知识

文章目录

线性代数

推荐系统评价

系统离线评估指标

Precision Recall

MAP MAR

覆盖率

个性化

列表内相似性

NDCG

UserCF, ItemFM

区别

计算方式

UserCF

ItemCF

LFM

推荐系统SVD

SVD

PCA

白化

Wide&Deep, DeepFM

GBDT

RF

LR

FM

Word2Vec

Transformer

LSTM/GRU

Node2Vec

LightGBM

PyTorch

深度学习知识

特征筛选

样本不平衡处理

猜你喜欢