推荐系统试验方法和指标

在介绍推荐系统指标之前,首先看一下计算和获得这些指标的主要实验方法。在推荐系统中,主要有三种评测推荐效果的实验方法,即离线实验(offline experiment)  用户调查(user study)和在线实验 (online experiment) . 

1.  离线实验

(1) 通过日日志收集用户行为数据,并按照一定的格式生成一个标注的数据集。

  (2)按照一定的规则将数据集划分为训练集和测试集。

 (3) 在训练集上训练用户兴趣模型, 在测试集上进行测试。

 (4) 通过事先定义的离线评测指标评测算法效果。

2.  用户调查

用户调查需要一批真实的用户, 让他们在需要的推荐系统上完成一些任务。在他们完成任务的,纪录他们的行为,并让他们回答一些问题。 最后,我们通过他们的行为和答案了解测试系统的性能。

3.   在线实验

完成以上两个步骤之后, 可以在推荐系统上做一个 AB test,将他和旧的系统进行对比。

附上AB test 网站(http://www.abtests.com)

AB test 可以公平的获取不同算法在实际在线时候的性能指标,包括商业上关注的指标。

一个简答的AB test 系统,用户进入网站之后,会给用户打上在测试种属于哪个分组的标签,然后用户浏览网页的时候,行为会通过日志系统发送到后台的日志数据库。 在后台,实验人员首先配置流量分配系统。 其次,实验人员需要统计日志数据库种的数据,生成测试数据,比较结果。

评测指标

1.  用户满意度

2.  预测准确度

1) 评分预测

2) TopN推荐

3.  覆盖率

4.  多样性

5.   新颖性

6.  惊喜度

7.  信任度

8.  实事性

9.  健壮性

猜你喜欢

转载自sharp-fcc.iteye.com/blog/1852030