推荐系统的评估及冷启动问题

5）推荐系统评估

1.推荐系统评估

常用的评估指标

准确性、信任度、满意度、实时性、覆盖率、鲁棒性、多样性、可扩展性、新颖性、商业目标、精细度
用户留存
- 准确性
  - 评分预测
    - RMSE MAE
  - topN推荐
    - 召回率精准率
覆盖度
- 信息熵越大越好
- 覆盖率
多样性&新颖性&惊喜性
- 多样性：推荐列表中两两物品的不相似性
- 新颖性：未曾关注的类别、作者；推荐结果的平均流行度
- 惊喜性：历史不相似，但用户却很满意
- 往往需要习生准确性
- 使用历史行为预测用户对某个物品的喜爱程度
- 系统过度强调实时性
Exploitation & Exploration 探索与开发问题
- Exploitation(开发利用)：选择现在可能最佳的方案
- Explotation(探测搜索)：选择现在不确定的一些方案，但未来可能会有高收益的方案
- 开发就是对于用户已经明确喜欢的物品，要大力开发，展现给用户明确喜欢的物品，但是时间长了可能会导致用户会腻，所以要探索用户可能会喜欢的物品。
EE问题实践
- 兴趣的扩展：相似话题，可能喜欢的
- 人群算法：userCF 用户聚类
- 平衡个性化推荐和热门推荐比例
- 随机丢弃用户行为历史
- 随机扰动模型参数
EE可能带来的问题
- 探索会伤害用户的体验，可能会导致用户流失
- 探索带来的长期收益评估周期长
- 如果平衡实时兴趣和长期兴趣
- 如何平衡短期产品体验和长期系统生态
- 如何平衡大众口味和小众需求

2.推荐系统的评估方法

问卷调查：但是成本高
离线评估
- 只能在用户看到过的候选集上面做评估，跟线上存在一定的偏差
- 只能评估少数指标
- 但是速度快，不影响用户的体验
在线评估：灰度发布 & A/B测试 50%全量上线
实践：离线评估和在线评估结合，定期做问卷调查

6）推荐系统的冷启动问题

冷启动问题的本质：就是没有历史数据的情况下如何预测用户的偏好

用户冷启动
- 收集用户特征
  - 用户的注册信息：年龄，性别，地域
  - 设备信息：位置、手机型号、app列表
  - 社交信息、推广素材、安装来源
- 引导用户填写兴趣
- 使用其他站点的行为数据
物品冷启动
- 给物品打标签
- 利用物品的内容信息，将新物品先投放给曾经喜欢过和它内容相似的其他物品的用户
系统冷启动
- 基于内容的推荐前期
- 基于内容的推荐逐渐过滤到协同过滤
- 基于内容的推荐和协同过滤的推荐都计算出来，加权和得到最终推荐结果

基于内容的推荐和基于协同过滤的推荐的区别：

基于协同过滤的推荐：必须要有用户的存在，就算是计算物品的相似度也同样需要有用户行为数据存在
基于内容的推荐：基于物品的标签来计算相似度

王涛涛.

发布了104 篇原创文章 · 获赞 33 · 访问量 3万+

私信关注

推荐系统的评估及冷启动问题

5）推荐系统评估

1.推荐系统评估

2.推荐系统的评估方法

6）推荐系统的冷启动问题

猜你喜欢