一、概述
最常用的推荐质量度量方法可以划分为三类:
1、对预测的评分进行评估,适用于评分预测任务
2、对预测的item集合进行评估,适用于Top-N推荐任务
3、按排名列表对推荐效果加权进行评估,既可以适用于评分预测任务也可以用于Top-N推荐任务
这三类度量方法对应的具体评价指标分别为:
(a)评分预测指标:平均绝对误差(MAE)、均方误差根(RMSE)、标准化平均误差(NMAE)、覆盖率(Coverage)
(b)集合推荐指标:精密度(Precision)、召回(Recall)、ROC和AUC
(c)排名推荐指标:half-life、discount cumulat
二、常用的评估指标
1、quality of the predictions:
1.1)平均绝对误差(Mean Absolute Error,MAE)
1.2)均方根误差(Root Mean Squared Error,RMSE)
1.3)覆盖率(Coverage)
2、quality of the set of recommendations
由于数据稀疏和冷启动问题的存在,有时直接预测用户对item的评分是困难的,为此提出了Top-N推荐方法。即不预测用户对item的评分,而是根据user-item的隐式交互(例如点击、收藏)来生成一组用户最有可能喜欢的items集合推荐给用户。
2.1)Prection:表示推荐项目总数中相关推荐项目的比例
2.2)Recall召回:表示相关推荐项目数量中相关推荐项目的比例
2.3)F1:表示精确性和召回的结合
2.4)ROC(Receiver Uperating Characteristic)和AUC(Area under curve)
2.5)HR:Hit Rate
2.6)ARHR:Average Reciprocal Hit Rank
3、quality of the list of recommendations:
当推荐项目的数量很大时,用户会更加重视推荐列表中排在前面的item。这时item中发生的错误比列表中排在后面的item中的错误更严重。按排名列表对推荐效果进行加权评估的方法考虑了这种情况。
3.1)半衰期(Haft-life):假设当用户远离顶部的推荐时,他的兴趣指数下降
3.2)贴现积累增益(discounted cumulative gain):衰减函数是对数函数,DCG的主要思想是用户喜欢的商品被排在列表前面比排在列表后面会更大程度上增加用户体现。
3.3)排序偏差准确率(rank-biased prection,RBP):RBP假设用户用户往往先浏览排在推荐列表首位的商品,然后依次以固定的概率P浏览下一个,以1-P的概率不再看此推荐表。
3.4)Mean Reciprocal Rank(MRR)
3.5)Mean Average Precision(MAP)
三、其他的评估指标
1、多样性和新颖性
2、稳定性