1.前言

为什么会有这个专栏?

相信跟大多数人一样，我的技术启蒙书籍，也是吴军老师的《数学之美》。大学时期，第一次看的时候，被数学&算法的魅力深深吸引，也是从那个时候，开始接触到推荐这个概念。工作后，大部分时间也都是开发推荐相关的系统与工程。随着业务的发展，推荐技术日新月异，也变得越来越复杂，因此也希望通过知识沉淀的方式，与大家交流学习，来提升自己的整体认识。

另一方面，网络上有非常的多的大V，很好的技术专栏介绍推荐系统。比如王喆的机器学习笔记更侧重算法&论文解读，我也希望从工程实现的角度，谈谈我的理解。

2.推荐系统综述

1. 什么是推荐系统，推荐系统解决了什么问题?

推荐系统是一种个性化的信息过滤系统。

从认知心理学的角度，人类通过采集信息，对信息的提取，加工，转换为概念和知识，不断加深我们对外部世界的理解。

信息的形式可以是，文字，图片，声音，视觉影响等。随着人类文明的发展，人类获取信息的方式也在不断转变。最初原始部落时代，是龟壳象形文字，壁画，到中世纪的是羊皮卷，纸张，工业革命则是电报，电话，再到现代的互联网。

技术的升级使得信息的创造和传递成本降低，自然就带来了信息的急剧爆炸。

面对过载的海量信息，为了提高信息获取效率，于是搜索系统应运而生，典型的就是谷歌和百度。

但是搜索是一种主动的，带有明确意图的行为。大部分时候，人们的注意力，关注点都是模糊的，不确定的，个体的偏好兴趣也差异极大。推荐系统则进一步提升了信息的获取效率，将不同信息分发给对应偏好的人群，人不再是单向的获取信息，信息也可以主动与人建立联系。

2. 推荐系统的大规模应用

当今世界，推荐系统已经渗透到生活的各个角落。

从资讯类的头条抖音，电商类的淘宝，拼多多，甚至生活娱乐类的美团，大众点评，都在大规模使用推荐系统，提高用户与平台的粘性。

3.推荐系统架构

如何搭建一套推荐系统？推荐系统由哪些模块组成？

推荐系统架构

首先是推荐的内容来源:

内容来源一般跟所在的业务领域相关。比如资讯类或者视频应用类，内容一般由用户上传(UGC)或者MCN机构上传(PGC)到平台。平台会对内容进行安全和质量等审核。同时也会进行一般黑产，灰产的打击。内容入库后，会根据不同的类型，进行内容理解。比如图文的内容，会进行标签抽取。视频内容会用多模态技术进行标签建立。解析完毕后，每条内容对应一个id和标签体系，存储到内容池中，供推荐系统使用。电商，音乐，电影等其他场景也是类似。

从工程实现的角度上，推荐系统主要分为三个大块。

在线模块: 决定推什么内容
离线模块: 学习用户习惯，提高系统对用户刻画的准确率
管理平台: 实验管理，推荐结果分析等

3.1 在线模块

以youtube为例子，每天都有成百上千万的内容传到平台，经过内容审核入库后。内容池子可以达到百千万

如何能够从成千上百万的内容池中挑选用户喜欢的内容?

为了解决这个问题，推荐系统一般会有若干个阶段。

索引&特征: 会根据内容特性提前建立若干种类型的索引
召回阶段: 用户请求时会从各种索引种取出千/万条item.
粗排阶段: 针对这上千/万条item，进行第一遍打分，再筛选出几百条或者千条。这个阶段的排序模型一般都比较简单，能够过滤掉一些与用户兴趣明显不想管的
精排阶段: 得到几百条item后，精排阶段会建立相对精细的模型，根据用户的画像，偏好，上下文，结合业务目标进行排序。一般精排后返回50-100条给到engine侧。
重排阶段: engine 侧拿到精排的50条item。还会做很多的人工干预和产品逻辑，比如item之间的多样性，产品策略逻辑，比如热门，置顶，多种内容之间的位置混合等等。最终会返回5-10条左右的item，曝光给客户端。

根据业务特性，在线流程还有许多比较细的模块，比如去重服务，避免给用户推荐重复的内容。特征预处理，特征抽取等模块。这些后面会单独介绍。