2.12美团点评技术博客笔记之推荐

http://s3.meituan.net/v1/mss_e63d09aec75b41879dcb3069234793ac/file/2018%E5%B9%B4%E7%BE%8E%E5%9B%A2%E7%82%B9%E8%AF%84%E6%8A%80%E6%9C%AF%E5%B9%B4%E8%B4%A7%EF%BC%88%E4%B8%AD%EF%BC%89.pdf这个年货真的好东西，看来要养成看技术博客的习惯了。

外卖 O2O 的用户画像实践

除去提供常规的用户基础属性（例如年龄、性别、职业、婚育状况等）以及用户偏好之外，还需要考虑这么几个问题：
1）什么样的用户会成为外卖平
台的顾客（新客识别）；
2）用户所处生命周期的判断，用户是否可能从平台流失（流失预警）；
3）用户处于什么样的消费场景（场景识别）。

新客运营主要需要回答下列三个问题：

1）新客在哪里？
2）新客的偏好如何？
3）新客的消费力如何？
回答这三个问题是比较困难的，因为相对于老客而言，新客的行为记录非常少
或者几乎没有。这就需要我们通过一些技术手段作出推断。例如：新客的潜在转化概
率，受到新客的人口属性（职业、年龄等）、所处地域（需求的因素）、周围人群（同样反映需求）以及是否有充足供给等因素的影响；而对于新客的偏好和消费力，从新客在到店场景下的消费行为可以做出推测。另外用户的工作和居住地点也能反映他的消费能力。
对新客的预测大量依赖他在到店场景下的行为，而用户的到店行为对于外卖是比
较稀疏的，大多数的用户是在少数几个类别上有过一些消费行为。

用户流失预警

我们借助机器学习的方法，构建用户的描述特征，并借助这些特征来预测用户未来流失的概率。这里有两种做法 : 第一种是预测用户未来若干天是否会下单这一事件发生的概率。这是典型的概率回归问题，可以选择逻辑回归、决策树等算法拟合给定观测下事件发生的概率；第二种是借助于生存模型，例如 COX-PH 模型，做流失的风险预测

场景运营

场景可以从时间、地点、订单三个维度描述。比如说工作日的下午茶，周末的家
庭聚餐，夜里在家点夜宵等等。其中重要的一点是用户订单地址的分析。通

旅游推荐系统的演进-郑刚

旅游推荐特点：

1.本异地差异大。在本地生活场景中用户需求绝大部分集中在本地，而在旅游场
景中超过 30% 的订单来自于异地请求，即常驻城市为 A 的用户购买了城市 B
的旅游订单。外地人浏览北京时推荐故宫、长城没有问题，北京人浏览时推
荐北京欢乐谷、野生动物园更为合适。
2. 推荐形式多样。除了景点推荐外，还有跟团游、景酒套餐的推荐。景点下有大
量重复相似的门票，不适合按 Deal（团购单）样式展示；跟团游、景酒套餐一
般会绑定多个景点，又不适合按 POI（门店）样式展现。
3. 季节性明显。比如，冬季温泉、滑雪比较热销，夏季更多人选择水上乐园。
4. 需求个性化。比如，亲子类用户和情侣类用户的需求会不太一样，进一步细
分，1~4 岁、6 岁以上亲子类用户的需求也会有所差别。

召回策略迭代

推荐系统的策略主要分为召回和排序两类，召回负责生成推荐的候选集，排序负责将多个召回策略的结果进行个性化排序。
- 1.0 基于用户常驻城市来统计, 通过销量衰减，基本解决了季节性问题, 推荐 POI 化(基于门店推荐)
- 2.0 对本异地订单分别统计，根据用户历史行为推荐（协同过滤），基于地理位置的推荐（解决冷启动）
- 协同过滤的分类：基于 POI 浏览行为的协同过滤；基于用户搜索行为的协同过滤；相似度改进：考虑用户行为先后顺序；poi时间跨度
- 每类召回策略的结果都需要做过滤：
1. 黑名单过滤。如源头有脏数据或需要人工干预的 Case。
2. 无售卖 POI 过滤。即过滤没有售卖 Deal 的 POI。
3. POI 距离过滤。过滤据当前浏览城市几百公里外的 POI。
4. 非当前城市过滤。过滤非当前浏览城市的 POI。
5. 已购买 POI 过滤。
总结：推荐顺序-历史行为，两个协同过滤，基于地理的热销推荐，本地热销（替补）

排序策略迭代：

1.0 ：第 1、3、5、7 位给历史行为强相关策略，第 2、4、6、8 位给 Location-Based 策略。
2.0 ：上下文， user-poi维度， poi三大维度
算法训练细节：（全部spark）
数据标注：hive日志数据，
样本选择
特征抽取
正负数据采样
模型训练

几类推荐场景

跟团游，筛选异地，筛选主题标签，搜索少 / 无结果推荐，酒店旅游交叉推荐

总结：

用户需求（用户是谁？）
场景需求：时间、位置、行为、渠道（app什么位置）。
内容形态：以本地场景为例，可以加强场景建设，比如：亲子、团建、温泉等；异地行前场景可以加强目的地、点评游记攻略、酒店交通行程安排等内容建设
触达方式：除了目前的搜索推荐外，还可以增加定向投放、内容引导、广告植入、活动运营等多种触达方式

美团点评旅游搜索召回策略的演进-郑刚

对完整的搜索系统，包括检索召回、查询分
析、智能排序和业务应用几部分，本文将重点介绍搜索召回（检索召回、查询分析）
的策略演进过程。

● 本异地差异大。在本地生活场景中用户的搜索需求往往集中在本城市内，而在
旅游场景特别是行前场景用户会先搜索异地的 POI（门店），比如常驻城市为北
京的用户在去上海之前可能会先搜索“东方明珠”、“迪士尼”了解相关信息。
● 搜索意图多样，不同意图的展现形式可能不同。搜“故宫”、“故宫成人票”是
景点门票意图，搜“北京”、“云南”是行政区意图，搜“水上乐园”、“滑雪
场”是品类意图，搜“上海到南京”、“一日游”是线路游意图。
● 底层脏数据多。旅游早期由于上单审核不严等原因，会出现“真人 CS”Deal
（团购单）下挂在“故宫博物馆”POI 的情况，按照平台的检索策略，搜“真人
CS”时会展现“故宫”的 POI，导致大量误召回。

评价指标

访购率：支付用户数 / 搜索访问 UV，这个是评估搜索效果的主指标
点击率：点击 PV/ 搜索 PV（Page View）
无结果率：无结果请求数 / 搜索请求数，衡量搜索召回质量的重要指标
用户满意度：由产品经理定期人工评测

策略迭代方法

搜索的 bad case 往往非常明确，因此我们确立了以 case 驱动为主的策略迭代方法。
- 全国召回：异地搜索有结果
- 模块化展示：线路，景点，品类，行政区域等等意图分类，基于模型的 Chunk 分析搜索语义条件随机场crf++
- 无结果优化：错别字同义词表意不明等造成等无结果：stop words remove；typo correction；
- 粗排序改进：
- ● 距离分分段：计算客户端选择城市中心和 POI 的距离，若距离 >=300KM，则
距离分为 0，300KM 以内距离越近，得分越高。另外当搜索品类意图时，加
大距离分的权重，比如东莞用户更希望去东莞附近的温泉（东莞本地温泉较
少），而不是北京的。
● 综合评价数和评分：早期评价数和评分是线性加权，会出现部分冷门 POI 评价
人数较少但评分较高的情况，因此考虑评分的置信度，评价数越多，置信度越
高，总体评分越高。
● 新单销量平滑：新单或新 POI 由于上线时间较短销量一般不高，因此对据当前
日期一段时间内上线的产品会赋予默认销量，并考虑时间衰减。
● 各因子相乘：文本相关性、距离、评价、销量这些因子维度差异较大，线性加
权的权重不好设定，改成相乘，会使各因子的影响更为显著。
- 文本相关性改进：修改tfidf：term进行重要程度排序

搜索召回实例

经过一年多的迭代，整个搜索召回的流程大致如下，以搜索“北京著名的温泉”
为例：
1. 对输入的查询进行预处理，比如特殊字符处理、全半角转换。
2. 查询分词和词性标注，“北京”是地名、“著名”是形容词、“的”是助词、“温
泉”是名词。
3. 基于词表的一次丢词，“的”作为停用词被丢弃。
4. 同义词改写，对分词的 Term 匹配同义词，如“温泉”和“热泉”是同义词。
5. 在同义词改写的同时分析 chunk tag，“北京”是城市、“著名”是品类修饰
词、“温泉”是品类词。
6. 基于 Chunk 分析的结果识别 Query 整体为品类意图。
7. 同时计算 Term 在 Query 中的重要度，“北京”为 0.48、“著名”为 0.39、
“温泉”为 0.55。
8. 基于品类意图确定检索字段和相关性计算的逻辑，比如距离加权。
9. 由于所有 POI 的文本字段中都不包含“著名”，一次召回无结果，因此扩大
POI 范围，在无合作 POI 集合中进行二次检索。
10. 由于无合作 POI 的文本字段也不包含“著名”，二次召回也无结果，因此基
于 Chunk 丢弃品类修饰词“著名”，然后进行三次检索。
11. 最终返回搜索结果列表，“顺景温泉”、“九华山庄”等北京著名温泉。

定向召回

基于实时行为召回,通过实时日志流平台准确的跟踪用户的实时点击浏览 / 收藏 / 购买行为，需要注意的是这个策略需要考虑召回概率按时间进行衰减，
基于位置召回: 实时地理位置，实时商圈热单，偏好商圈热单召回
基于协同过滤和矩阵分解

ctr预估：

到在实时竞价阶段，AdServer 会跟 PredictorServer 请求每个广告的站外点击率和点击价值，因为在站外广告点击日志中，正样本是非常稀疏的，为了保证模型的
准确度，我们一般都会采用负样本抽样。这样模型估计出来的 CTR 相对大小是没有
问题的，可以作为排序依据，但是用来计算出价的时候，必须把负样本采样过程还原
回去，
- 站外 CTR 预估：
对于每个流量，AdExchange 会下发给多个 DSP，报价最高的 DSP 会胜出，获取在这个流量上展示广告的机会。为了能够引入更多的优质流量，减少流量成本，提高 ROI、CTR 预估模型需要充分考虑站点、广告、用户等维度的信息
1。特征选择：广告的点击与转化主要与用户、广告、媒体（user，ad，publisher）这三个因
素相关。我们的特征也主要从这三个方向去构建，并衍生出一些特征 [5]。
2。特征处理：模型选择，特征降维，负样本选择，负样本采样，真实ctr校准
- 二跳页 CTR 预估：ffm

点击价值预估

效果评估和监控

离线评估：roc auc Facebook 提出了 NE（Normalized Entropy）[9] 来衡量模型，NE 越小，模型越好。
在线ab test
在线监控：auc，在线预估均值监控

美团点评联盟广告场景化定向排序机制-马莹　一凡

本文首先会对美团点评的广告粗排机制进行概要介绍，之后会详细阐述基于用
户、天气、关键词等场景特征的广告粗排策略。

基于用户画像的广告粗排：

标签体系分为五大类：
1. 与目前美团点评的商户分类体系强相关（因为广告主都来自于这些产品分类）
的兴趣体系，如“美食 / 火锅”兴趣人群，“亲子 / 乐园”兴趣人群等。
2. 自然属性，如用户的年龄、性别、常驻城市等。
3. 社会属性，如职业、婚恋状态、受教育程度等。
4. 心理认知，消费水平、时尚偏好等。
5. 根据某些需求衍生的自定义标签，标签可以根据后续需求不断新增。