用于推荐系统评估的概念与指标

在推荐系统中,研究人员为了能让预测结果对用户提供更多价值,会关注用户满意度。鉴于推荐系统除了让用户购买更多的相似产品外,还必须对用户而言“有用”,研究人员还会关注用户在使用系统时的交互体验和消费体验。 目前,研究人员正在通过评估不同的指标来解决这个问题,而不是简单地通过预测准确度和机器学习技术。

推荐系统的性能应该由它为用户产生的价值来衡量。在推荐系统的评估问题上,目前有很多指标,比如说覆盖率、新颖性、多样性、惊喜度。这些评估方法名称各不相同。

有些学者把推荐系统中的新颖性、相关性、惊喜度等称其为“概念(concept )”,另一些学者则称其为“维度(dimensions)”,还有些人称其为“推荐系统评估的方法(measures of recommender system evaluation)”。

在本文中,我们将使用“概念”一词,指代评估推荐系统时的不同方面。在对现有概念归类后,我们将其分为了六大类:实用性、新颖性、多样性、奇异性、覆盖率、惊喜度和覆盖率。但还有一些概念未提及,如:信任、风险、鲁棒性、隐私、适应性和可扩展性。为了方便读者阅读,我们会把这几大概念用不同的篇幅呈现。

表1总结了本文在所有评估指标中使用的符号。
在这里插入图片描述

实用性

推荐系统的实用性有很多别称,例如相关性、有用性、推荐价值和用户满意度等。《推荐系统手册》(Recommender Systems Handbook)认为,实用性代表了用户在推荐时所获得的价值。如果用户喜欢推荐的项目,他/她收到的推荐就是有用的。实用性还被定义为用户消费偏好顺序。如果用户只消费他们最喜欢的东西,那么推荐这些项目能帮助用户更快找到心中所爱,从而达到推荐的实用性。

可以看出,大多数定义将实用性与用户消费的愿望与用户满意度挂钩。在这样的定义中,评估推荐系统的实用性应该集中在用户对推荐系统生成的预测做何反应。我们可以通过评估用户在消费物品后给出的评级,从而衡量推荐系统实用性。如果推荐结果为用户带来了价值,这种方法似乎是可取的,但这涉及到了在线评估。而说到离线评估,部分学者建议使用基于准确度的指标来评估。

在本文中,我们使用符号

猜你喜欢

转载自blog.51cto.com/13945147/2433431