小白的推荐系统笔记一:测评指标

1.用户满意度:没办法离线计算,一般通过调查问卷的形式

2.预测准确度

      (1)评分预测:这种方法是针对打分系统,r_{ui}为用户u对物品i的实际评分,\widehat{r}_{ui}是推荐算法给出的预测评分

               均方根误差(RMSE)和平均绝对误差(MAE)

               

      (2)Top N推荐:R(u)是根据用户在训练集上的行为建立的模型在测试集上的推荐列表,T(u)是用户在测试集上的选择

               准确率(Precision)和召回率(Recall)

               

      (3)评分预测和Top N推荐的区别

               以电影推荐系统为例,评分预测是预测用户看完电影可能给打多少分,Top N推荐是找出用户想看的电影,也许有些电影也许用户看了以后会打很高的分,但是用户看的可能性或许非常小

3.覆盖率:描述系统对长尾的发掘能力,旨在消除马太效应

      (1)覆盖率最简单的定义为推荐系统能推荐出来的物品占总物品集合的比例。假设用户集合为U,推荐系统给每个用户推荐一个长度为N的物品列表R(u)

              

      (2)上面的定义过于粗略,为了更细致地描述,需要统计推荐列表中不同物品出现的次数。可以研究物品在推荐列表中出现的次数的分布,如果这个分布较平,说明覆盖率较高,如果分布较陡峭,说明覆盖率较低。

               有两种指标来定义覆盖率,第一个是信息熵:

                 p(i)是物品i被推荐的次数除以所有物品被推荐次数之和,易知所有p(i)相等时H最大

                第二个是基尼系数:

                 i_{j}是按照物品流行度p()从小到大排序的物品列表中第i个物品

               基尼系数的原理粘贴书上的描述如下:

               

4.多样性:用户的兴趣是广泛的,我们希望推荐列表能覆盖用户较多的兴趣点,即具有多样性。

     多样性描述了推荐列表物品两两之间的不相似性,设s(i,j)为物品i、j之间的相似度,则用户u的推荐列表R(u)的多样性定义为:

   

    推荐系统的整体多样性可以定义为所有用户推荐列表多样性的平均值:

    

5.新颖性:给用户推荐那些他以前没有听说过的物品,最简单的方法是把用户之前对其有过行为的物品从推荐列表中过滤掉。测评新颖性最简单的方法是利用推荐结果的平均流行度,因为越不热门的物品越可能让用户觉得新颖

6.惊喜度:即和用户历史上喜欢的物品不相似,但却让用户觉得很满意的推荐

7.信任度:一般通过问卷调查的形式,询问用户是否信任推荐系统推荐的结果。提高信任度有两种做法:

         *增加推荐系统的透明度,提供推荐解释,让用户了解推荐系统的运行机制
         *考虑用户的社交网络信息,利用用户的好友信息给用户做推荐,并且用好友进行推荐解释

8.实时性:新闻、微博等具有很强的时效性,应该物品还具有时效性时就将它们推荐给用户,实时性包括两方面:

         *推荐系统需要实时地更新推荐列表来满足用户新的行为变化,如用户今天买了手机,那么立即给他推荐手机配件会比第二天再推荐有价值

         *推荐系统需要能够将新加入系统的物品推荐给用户,这主要考验了推荐系统处理物品冷启动的能力

9.健壮性:(robust,鲁棒性)衡量推荐系统抗击作弊的能力,作弊方法较著名的为注入攻击,如购买A的用户也常购买B,只需要注册很多账号同时购买A和自己的商品,提高健壮性的方法:

        *选择健壮性高的算法

        *设计推荐系统时尽量使用代价较高的用户行为,如购买高于浏览

        *使用数据前进行攻击检测,从而对数据进行清理

10.商业目标:要注重商业目标是否达成,如广告展示总数、广告的点击率等等

(笔记部分内容来源于《推荐系统实践》,项亮著,人民邮电出版社出版)

猜你喜欢

转载自blog.csdn.net/qq_41518266/article/details/84670984