新坑

特征提取方法

特征提取方法: one-hot 和 TF-IDF
词袋模型（BOW，bag of words）和词向量模型（Word Embedding）概念介绍
 word2vec原理(一) CBOW与Skip-Gram模型基础

协同过滤

基于用户的协同过滤：给相似的人推荐相同的物品。人与人之间的相似性通过给相同的物品的打分情况来判定，因为如果两个人在很多物品上都是同时喜欢或者不喜欢，那么这两个人就相似。
基于物品的协同过滤：把相似的物品推荐给相同的人。物品与物品的相似性通过被相同的人的打分情况来判定，因为如果很多人都认为两个东西同时好或者同时不好，那么这两个东西就是相似的。例如物品A得到的打分是[1,3,3,1,4]，物品B得到的打分是[2,1,3,1,4]，如果一个新的用户买了A，那给他推荐B，也就是说，不需要等这个新用户积累一定的购买信息，就能给他推荐东西了。
上面博客里基于物品的协同过滤是先找的与物品3最相似的物品4、5，然后在找物品4和5最相似的

矩阵分解

SVD

奇异值分解SVD简介及其在推荐系统中的简单应用

$A_{n*m} \approx U_{n*k}\Sigma_{k*k} V_{k*m}^T$ 如果 $A$ 表示的是 $n$ 个人对 $m$ 个物品的评分，那么 $U_{n*k}$ 就代表了 $n$ 个用户在某 $k$ 个属性上的表现， $V_{k*m}$ 就代表了 $m$ 个物品在某 $k$ 个属性上的表现，而 $\Sigma$ 代表的是用户和物品在这 $k$ 个物品上的转化关系
进而可以把 $V_{m*k}=A^TU\Sigma^{-1}$ 用于计算 $m$ 个物品之间的相似性上
为什么可以这样考虑呢？是时候真正理解PCA和SVD了，想象 $A$ 是一个 $m*2$ 的矩阵，就是说我们手上只有两个物品，画出坐标轴，横轴是用户对物品1的喜好程度，纵轴是用户对物品2的喜好长度，坐标中每一个点都是一个用户对两者的喜好程度，并且假设这些点都处于一条直线上，我们现在要对列用PCA进行降成一维：首先求 $A^TA$ 的最大的特征向量 $\lambda_1=[3/5,4/5]^T$ ，然后把坐标中每一个点映射到 $\lambda_1$ 代表的坐标轴上就行了。
PCA相当于说找到了一个新的物品3，把原始的用户对物品1和物品2的喜好程度变成了用户对物品3的喜好程度。物品3可以看做物品1和物品2的共性，那么反过来看，物品1和物品2可以看做物品3的体现， $\lambda_1$ 的意义是什么，举例来讲，用户有1分喜欢物品3，他就会有3/5分喜欢物品1，有4/5分喜欢物品2，也就是说物品1有3/5像物品3，物品2有4/5像物品4（给自己鼓个掌）；如果把物品3称为属性3，例如物品1是玉子的手办，物品2是平泽唯的手办，那物品3就可以看做是萌（卖萌）。那么3/5就代表着，玉子的手办有3/5这么萌。喏，这就是为什么 $V$ 可以看做物品的属性矩阵了。

LFM

用已知的评分和梯度下降的方法来求取那两个矩阵，然后用求出来的那两个矩阵相乘去模拟原评分矩阵，然后根据评分来推荐

分解机

分解机(Factorization Machines)推荐算法原理

FM是一种非线性拟合模型，之所以是说非线性，是指拟合的时候用到了高阶乘积，如 $x_ix_j...$
FM的求解使用的梯度下降或者最小二乘，具体求解方法暂时没看
ALS求解过程就是，先对 $w_0$ 进行最小二乘（即梯度为0），然后对 $w_i$ 进行最小二乘，再对 $v_{ij}$ 最小二乘，交替进行，因为这是个凸优化问题嘛，所以可以这样做
FM有啥用呢，有了这个模型的话（就是参数 $\Theta=\{w_0,w_i,\bf{v}_j\}$ 已知），我们就可以对新的样本进行预测了，比如上述博客中的图一，我们就可以预测Alice对于StarTreck的评分了。

排序学习

排序学习概述
 学习排序 Learning to Rank：从 pointwise 和 pairwise 到 listwise，经典模型与优缺点

一些名词

CTR
neural IR

机器学习——推荐系统积累与发现

推荐算法

入门与科普

特征提取方法

协同过滤

矩阵分解

SVD

LFM

分解机

排序学习

一些名词

猜你喜欢