推荐系统的评估及冷启动问题

5)推荐系统评估

1.推荐系统评估

  • 常用的评估指标

    准确性、信任度、满意度、实时性、覆盖率、鲁棒性、多样性、可扩展性、新颖性、商业目标、精细度

  • 用户留存

    • 准确性
      • 评分预测
        • RMSE MAE
      • topN推荐
        • 召回率 精准率
  • 覆盖度

    • 信息熵 越大越好
    • 覆盖率
  • 多样性&新颖性&惊喜性

    • 多样性:推荐列表中两两物品的不相似性
    • 新颖性:未曾关注的类别、作者;推荐结果的平均流行度
    • 惊喜性:历史不相似,但用户却很满意
    • 往往需要习生准确性
    • 使用历史行为预测用户对某个物品的喜爱程度
    • 系统过度强调实时性
  • Exploitation & Exploration 探索与开发问题

    • Exploitation(开发 利用):选择现在可能最佳的方案
    • Explotation(探测 搜索):选择现在不确定的一些方案,但未来可能会有高收益的方案
    • 开发就是对于用户已经明确喜欢的物品,要大力开发,展现给用户明确喜欢的物品,但是时间长了可能会导致用户会腻,所以要探索用户可能会喜欢的物品。
  • EE问题实践

    • 兴趣的扩展:相似话题,可能喜欢的
    • 人群算法:userCF 用户聚类
    • 平衡个性化推荐和热门推荐比例
    • 随机丢弃用户行为历史
    • 随机扰动模型参数
  • EE可能带来的问题

    • 探索会伤害用户的体验,可能会导致用户流失
    • 探索带来的长期收益评估周期长
    • 如果平衡实时兴趣和长期兴趣
    • 如何平衡短期产品体验和长期系统生态
    • 如何平衡大众口味和小众需求

2.推荐系统的评估方法

  • 问卷调查:但是成本高
  • 离线评估
    • 只能在用户看到过的候选集上面做评估,跟线上存在一定的偏差
    • 只能评估少数指标
    • 但是速度快,不影响用户的体验
  • 在线评估:灰度发布 & A/B测试 50%全量上线
  • 实践:离线评估和在线评估结合,定期做问卷调查

6)推荐系统的冷启动问题

冷启动问题的本质:就是没有历史数据的情况下如何预测用户的偏好

  • 用户冷启动
    • 收集用户特征
      • 用户的注册信息:年龄,性别,地域
      • 设备信息:位置、手机型号、app列表
      • 社交信息、推广素材、安装来源
    • 引导用户填写兴趣
    • 使用其他站点的行为数据
  • 物品冷启动
    • 给物品打标签
    • 利用物品的内容信息,将新物品先投放给曾经喜欢过和它内容相似的其他物品的用户
  • 系统冷启动
    • 基于内容的推荐 前期
    • 基于内容的推荐逐渐过滤到协同过滤
    • 基于内容的推荐和协同过滤的推荐都计算出来,加权和得到最终推荐结果

基于内容的推荐和基于协同过滤的推荐的区别:

  • 基于协同过滤的推荐:必须要有用户的存在,就算是计算物品的相似度也同样需要有用户行为数据存在
  • 基于内容的推荐:基于物品的标签来计算相似度
发布了104 篇原创文章 · 获赞 33 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/WangTaoTao_/article/details/104459949