推荐系统原理

当今社会进入一个数据“爆炸”的时代，如何让用户更快地找到想要的数据，如何让用户发现自己潜在的兴趣和需求，这对于各行各业都在互联网化的社会是至关重要的。因此，推荐引擎受到了大家越来越多的关注。

推荐引擎和传统搜索引擎不一样的地方在于，用户其实并不清楚自己的需求，或者他们的需求很难用简单的关键字来表述，又或者他们需要更加符合自身口味和喜好的结果，因此就出现了基于用户需求、口味、喜好的信息发现机制的推荐系统。

最简答的推荐系统流程如下所示：
在这里插入图片描述
构成推荐系统的主要元素如下：

物品集合：要推荐的物品或内容，例如商品、音乐、广告等；
用户：用户的基本信息、用户的行为、用户的兴趣爱好等；
场景：用户所处的环境，例如，网络环境、什么时间正在做什么等；
搜索引擎：根据用户对物品或者信息的偏好（包括用户对物品的评分、用户查看物品的记录、用户的购买记录等）与用户的画像数据进行拟合，学习得到什么样的用户会喜欢什么样的物品这样一个模型；
推荐结果集：这里是一个推荐结果或者一个推荐结果排序集合；

其中推荐引擎中包含3块重要模块：

召回模块：根据用户和场景特征，从物品列表（上百万个物品）中挑选用户可能感兴趣的物品，通过多种召回方法进行组合召回，最终得到用户的候选物品集（几百或者上千个物品）。在召回模块中，一般使用简单的特征进行快速查询，比如，根据用户最近点击的物品召回相似物品，根据用户兴趣类目召回物品等；
排序模块，针对召回模块的候选物品集进行精排，根据用户的所有标签特征、物品的特征以及交叉特征组合，通过排序模型计算，得到用户对候选物品集的评分。排序模块使用的特征比召回模块复杂，目的是计算用户精确的预测值；
后排模块：后排也就是后置排序，在得到用户对候选物品集的评分结果后，如果不进行后排，将会按照评分从高到低发给用户进行展示。通常这里需要对排序列表进行调整，比如运行干预、优先级调权、指定下发规则等；