推荐系统之评测指标

前言：在接下来的一段时间，我将学习《推荐系统实践》这本书，打算把每天学习的内容进行总结写成博客，今天是第一篇，主要内容是关于推荐系统的一些常见指标。

1. 推荐系统实验方法

在推荐系统中，主要有三种评测推荐效果的实验方法：离线实验、用户调查和在线实验。离线实验主要通过从日志中获取用户行为数据集，然后划分训练集、测试集进行训练、评测；用户调查主要是对一些真实用户进行调查以获取他们的实际行为来了解测试系统的性能；在线实验最常用的是AB测试，它通过统计不同组用户的各种不同的评测指标来比较不同算法。

一般来说，一个新的推荐算法最终上线，需要完成以上三个实验：首先，需要通过离线实验证明它在很多离线指标上优于现有的算法；然后，需要通过用户调查确定它的用户满意度不低于现有算法；最后，通过在线的AB测试来确定它在我们关心的指标上优于现有的算法。

2.评测指标

2.1 用户满意度

用户作为推荐系统的重要参与者，其满意度是评测推荐系统的最重要指标。用户满意度没有办法通过离线计算，只能通过用户调查（调查问卷）和在线实验获得（统计购买率、点击率、用户停留时间、转化率等）。

2.2 预测准确度

预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力，主要通过离线计算获得。根据推荐系统的研究方向，预测准确度指标主要分为评分预测和topN推荐。对于那些基于物品评分的网站（如电影评分），一般通过评分预测来度量推荐系统的预测准确度，具体计算方式有均方根误差（RMSE）和平均绝对误差（MAE）两种。对于那些需要提供给用户一个个性化的推荐列表的推荐，一般通过准确率和召回率来衡量。

关于电影推荐的预测准确度衡量标准，认为评分预测有失偏颇，选取TopN推荐更符合实际应用需求。

2.3 覆盖率

覆盖率描述一个推荐系统对物品长尾的发掘能力。覆盖率有不同的定义方法，最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。更为详细的两个指标是信息熵和基尼系数。

2.4 多样性

多样性描述了推荐列表中物品两两之间的不相似性。

2.5 新颖性

新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。在一个网站实现新颖性的最简单办法是，把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。

2.6 惊喜度

惊喜度和新颖性的区别是，用户对于推荐的未曾见过的物品感到满意。

2.7 信任度

对于相同的推荐，我们总是倾向于我们信任的那个人的建议。因此，一个好的推荐系统应该以让用户信任的方式推荐给用户，这样更能让用户产生购买欲。所以，一般的推荐系统中在给出推荐物品的同时还会显示推荐的理由，这种做法就是为了增加用户的信任度。

2.8 实时性

推荐系统的实时性包括两个方面：一是推荐系统需要实时地更新推荐列表来满足用户新的行为变化；二是推荐系统需要把新加入系统的物品推荐给用户（物品冷启动问题）。

2.9 健壮性

健壮性衡量一个推荐系统抗击作弊的能力。在实际系统中，提高系统的健壮性，除了选择健壮性高的算法，还有：设计推荐系统时尽量使用代价比较高的用户行为；在使用数据前，进行攻击检测，从而对数据进行清洗。

2.10 商业目标

根据自己的盈利模式设计不同的商业目标。

推荐系统之评测指标

猜你喜欢