2.12美团点评技术博客笔记之推荐

http://s3.meituan.net/v1/mss_e63d09aec75b41879dcb3069234793ac/file/2018%E5%B9%B4%E7%BE%8E%E5%9B%A2%E7%82%B9%E8%AF%84%E6%8A%80%E6%9C%AF%E5%B9%B4%E8%B4%A7%EF%BC%88%E4%B8%AD%EF%BC%89.pdf这个年货真的好东西,看来要养成看技术博客的习惯了。

外卖 O2O 的用户画像实践

除去提供常规的用户基础属性(例如年龄、性别、职业、婚育状况等)以及用户偏好之外,还需要考虑这么几个问题:
1)什么样的用户会成为外卖平
台的顾客(新客识别);
2)用户所处生命周期的判断,用户是否可能从平台流失(流失预警);
3)用户处于什么样的消费场景(场景识别)。

新客运营主要需要回答下列三个问题:

1)新客在哪里?
2)新客的偏好如何?
3)新客的消费力如何?
回答这三个问题是比较困难的,因为相对于老客而言,新客的行为记录非常少
或者几乎没有。这就需要我们通过一些技术手段作出推断。例如:新客的潜在转化概
率,受到新客的人口属性(职业、年龄等)、所处地域(需求的因素)、周围人群(同样反映需求)以及是否有充足供给等因素的影响;而对于新客的偏好和消费力,从新客在到店场景下的消费行为可以做出推测。另外用户的工作和居住地点也能反映他的消费能力。
对新客的预测大量依赖他在到店场景下的行为,而用户的到店行为对于外卖是比
较稀疏的,大多数的用户是在少数几个类别上有过一些消费行为。

用户流失预警

我们借助机器学习的方法,构建用户的描述特征,并借助这些特征来预测用户未来流失的概率。这里有两种做法 : 第一种是预测用户未来若干天是否会下单这一事件发生的概率。这是典型的概率回归问题,可以选择逻辑回归、决策树等算法拟合给定观测下事件发生的概率;第二种是借助于生存模型,例如 COX-PH 模型,做流失的风险预测

场景运营

场景可以从时间、地点、订单三个维度描述。比如说工作日的下午茶,周末的家
庭聚餐,夜里在家点夜宵等等。其中重要的一点是用户订单地址的分析。通

旅游推荐系统的演进-郑刚

旅游推荐特点:

1.本异地差异大。在本地生活场景中用户需求绝大部分集中在本地,而在旅游场
景中超过 30% 的订单来自于异地请求,即常驻城市为 A 的用户购买了城市 B
的旅游订单。外地人浏览北京时推荐故宫、长城没有问题,北京人浏览时推
荐北京欢乐谷、野生动物园更为合适。
2. 推荐形式多样。除了景点推荐外,还有跟团游、景酒套餐的推荐。景点下有大
量重复相似的门票,不适合按 Deal(团购单)样式展示;跟团游、景酒套餐一
般会绑定多个景点,又不适合按 POI(门店)样式展现。
3. 季节性明显。比如,冬季温泉、滑雪比较热销,夏季更多人选择水上乐园。
4. 需求个性化。比如,亲子类用户和情侣类用户的需求会不太一样,进一步细
分,1~4 岁、6 岁以上亲子类用户的需求也会有所差别。

召回策略迭代

推荐系统的策略主要分为召回和排序两类,召回负责生成推荐的候选集,排序负责将多个召回策略的结果进行个性化排序。
- 1.0 基于用户常驻城市来统计, 通过销量衰减,基本解决了季节性问题, 推荐 POI 化(基于门店推荐)
- 2.0 对本异地订单分别统计, 根据用户历史行为推荐(协同过滤),基于地理位置的推荐(解决冷启动)
- 协同过滤的分类:基于 POI 浏览行为的协同过滤;基于用户搜索行为的协同过滤;相似度改进:考虑用户行为先后顺序;poi时间跨度
- 每类召回策略的结果都需要做过滤:
1. 黑名单过滤。如源头有脏数据或需要人工干预的 Case。
2. 无售卖 POI 过滤。即过滤没有售卖 Deal 的 POI。
3. POI 距离过滤。过滤据当前浏览城市几百公里外的 POI。
4. 非当前城市过滤。过滤非当前浏览城市的 POI。
5. 已购买 POI 过滤。
总结:推荐顺序-历史行为,两个协同过滤,基于地理的热销推荐,本地热销(替补)

排序策略迭代:

  • 1.0 :第 1、3、5、7 位给历史行为强相关策略,第 2、4、6、8 位给 Location-Based 策略。
  • 2.0 :上下文, user-poi维度, poi三大维度
    算法训练细节:(全部spark)
  • 数据标注:hive日志数据,
  • 样本选择
  • 特征抽取
  • 正负数据采样
  • 模型训练

几类推荐场景

  • 跟团游,筛选异地,筛选主题标签,搜索少 / 无结果推荐,酒店旅游交叉推荐

总结:

  • 用户需求(用户是谁?)
  • 场景需求:时间、位置、行为、渠道(app什么位置)。
  • 内容形态:以本地场景为例,可以加强场景建设,比如:亲子、团建、温泉等;异地行前场景可以加强目的地、点评游记攻略、酒店交通行程安排等内容建设
  • 触达方式: 除了目前的搜索推荐外,还可以增加定向投放、内容引导、广告植入、活动运营等多种触达方式

美团点评旅游搜索召回策略的演进-郑刚

对完整的搜索系统,包括检索召回、查询分
析、智能排序和业务应用几部分,本文将重点介绍搜索召回(检索召回、查询分析)
的策略演进过程。

● 本异地差异大。在本地生活场景中用户的搜索需求往往集中在本城市内,而在
旅游场景特别是行前场景用户会先搜索异地的 POI(门店),比如常驻城市为北
京的用户在去上海之前可能会先搜索“东方明珠”、“迪士尼”了解相关信息。
● 搜索意图多样,不同意图的展现形式可能不同。搜“故宫”、“故宫成人票”是
景点门票意图,搜“北京”、“云南”是行政区意图,搜“水上乐园”、“滑雪
场”是品类意图,搜“上海到南京”、“一日游”是线路游意图。
● 底层脏数据多。旅游早期由于上单审核不严等原因,会出现“真人 CS”Deal
(团购单)下挂在“故宫博物馆”POI 的情况,按照平台的检索策略,搜“真人
CS”时会展现“故宫”的 POI,导致大量误召回。

评价指标

  • 访购率:支付用户数 / 搜索访问 UV,这个是评估搜索效果的主指标
  • 点击率:点击 PV/ 搜索 PV(Page View)
  • 无结果率:无结果请求数 / 搜索请求数,衡量搜索召回质量的重要指标
  • 用户满意度:由产品经理定期人工评测

策略迭代方法

搜索的 bad case 往往非常明确,因此我们确立了以 case 驱动为主的策略迭代方法。
- 全国召回:异地搜索有结果
- 模块化展示:线路,景点,品类, 行政区域等等意图分类,基于模型的 Chunk 分析搜索语义条件随机场crf++
- 无结果优化:错别字同义词表意不明等造成等无结果:stop words remove;typo correction;
- 粗排序改进:
- ● 距离分分段:计算客户端选择城市中心和 POI 的距离,若距离 >=300KM,则
距离分为 0,300KM 以内距离越近,得分越高。另外当搜索品类意图时,加
大距离分的权重,比如东莞用户更希望去东莞附近的温泉(东莞本地温泉较
少),而不是北京的。
● 综合评价数和评分:早期评价数和评分是线性加权,会出现部分冷门 POI 评价
人数较少但评分较高的情况,因此考虑评分的置信度,评价数越多,置信度越
高,总体评分越高。
● 新单销量平滑:新单或新 POI 由于上线时间较短销量一般不高,因此对据当前
日期一段时间内上线的产品会赋予默认销量,并考虑时间衰减。
● 各因子相乘:文本相关性、距离、评价、销量这些因子维度差异较大,线性加
权的权重不好设定,改成相乘,会使各因子的影响更为显著。
- 文本相关性改进:修改tfidf:term进行重要程度排序

搜索召回实例

经过一年多的迭代,整个搜索召回的流程大致如下,以搜索“北京著名的温泉”
为例:
1. 对输入的查询进行预处理,比如特殊字符处理、全半角转换。
2. 查询分词和词性标注,“北京”是地名、“著名”是形容词、“的”是助词、“温
泉”是名词。
3. 基于词表的一次丢词,“的”作为停用词被丢弃。
4. 同义词改写,对分词的 Term 匹配同义词,如“温泉”和“热泉”是同义词。
5. 在同义词改写的同时分析 chunk tag,“北京”是城市、“著名”是品类修饰
词、“温泉”是品类词。
6. 基于 Chunk 分析的结果识别 Query 整体为品类意图。
7. 同时计算 Term 在 Query 中的重要度,“北京”为 0.48、“著名”为 0.39、
“温泉”为 0.55。
8. 基于品类意图确定检索字段和相关性计算的逻辑,比如距离加权。
9. 由于所有 POI 的文本字段中都不包含“著名”,一次召回无结果,因此扩大
POI 范围,在无合作 POI 集合中进行二次检索。
10. 由于无合作 POI 的文本字段也不包含“著名”,二次召回也无结果,因此基
于 Chunk 丢弃品类修饰词“著名”,然后进行三次检索。
11. 最终返回搜索结果列表,“顺景温泉”、“九华山庄”等北京著名温泉。

定向召回

  • 基于实时行为召回,通过实时日志流平台准确的跟踪用户的实时点击浏览 / 收藏 / 购买行为,需要注意的是这个策略需要考虑召回概率按时间进行衰减,
  • 基于位置召回: 实时地理位置,实时商圈热单, 偏好商圈热单召回
  • 基于协同过滤和矩阵分解

ctr预估:

到在实时竞价阶段,AdServer 会跟 PredictorServer 请求每个广告的站外点击率和点击价值,因为在站外广告点击日志中,正样本是非常稀疏的,为了保证模型的
准确度,我们一般都会采用负样本抽样。这样模型估计出来的 CTR 相对大小是没有
问题的,可以作为排序依据,但是用来计算出价的时候,必须把负样本采样过程还原
回去,
- 站外 CTR 预估:
对于每个流量,AdExchange 会下发给多个 DSP,报价最高的 DSP 会胜出,获取在这个流量上展示广告的机会。为了能够引入更多的优质流量,减少流量成本,提高 ROI、CTR 预估模型需要充分考虑站点、广告、用户等维度的信息
1。特征选择:广告的点击与转化主要与用户、广告、媒体(user,ad,publisher)这三个因
素相关。我们的特征也主要从这三个方向去构建,并衍生出一些特征 [5]。
2。特征处理:模型选择,特征降维,负样本选择,负样本采样,真实ctr校准
- 二跳页 CTR 预估:ffm

点击价值预估

效果评估和监控

  • 离线评估:roc auc Facebook 提出了 NE(Normalized Entropy)[9] 来衡量模型,NE 越小,模型越好。
  • 在线ab test
  • 在线监控:auc, 在线预估均值监控

    美团点评联盟广告场景化定向排序机制-马莹 一凡

    本文首先会对美团点评的广告粗排机制进行概要介绍,之后会详细阐述基于用
    户、天气、关键词等场景特征的广告粗排策略。

基于用户画像的广告粗排:

标签体系分为五大类:
1. 与目前美团点评的商户分类体系强相关(因为广告主都来自于这些产品分类)
的兴趣体系,如“美食 / 火锅”兴趣人群,“亲子 / 乐园”兴趣人群等。
2. 自然属性,如用户的年龄、性别、常驻城市等。
3. 社会属性,如职业、婚恋状态、受教育程度等。
4. 心理认知,消费水平、时尚偏好等。
5. 根据某些需求衍生的自定义标签,标签可以根据后续需求不断新增。

基于天气场景特征的广告粗排:

定向汇总:场景加权排序

猜你喜欢

转载自blog.csdn.net/joshuajinxiaoshuai/article/details/79319752