1 混淆矩阵

在这里插入图片描述
TP（true positive）：表示样本的真实类别为正，最后预测得到的结果也为正；
FP（false positive）：表示样本的真实类别为负，最后预测得到的结果却为正；
FN（false negative）：表示样本的真实类别为正，最后预测得到的结果却为负；
TN（true negative）：表示样本的真实类别为负，最后预测得到的结果也为负.

其中，TP与TN表示分类正确的样本。

2 准确率

准确率表示预测正确的样本数占总样本书的比例。
$\frac{TP+TN}{TP+TN+FP+FN}$

3 精确率

精确率表示预测为正样本的样本中，正确预测为正样本的概率。
$\frac{TP}{TP+FP}$

4 召回率

召回率表示正确预测出正样本占实际正样本的概率。
$\frac{TP}{TP+FN}$

5 F1 score

折中了召回率与精确率。
$\frac{2*Recall*Precision}{Recall+Precision}$

6 ROC与AUC

ROC曲线的横轴为假正例率FPR(越小越好)，纵轴为真正例率TPR(越大越好)。
$\frac{FP}{TN+FP}$
$\frac{TP}{TP+TN}$

ROC计算过程：

1)首先每个样本都需要有一个label值，并且还需要一个预测的score值（取值0到1）;2)然后按这个score对样本由大到小进行排序，假设这些数据位于表格中的一列，从上到下依次降序;3)现在从上到下按照样本点的取值进行划分，位于分界点上面的我们把它归为预测为正样本，位于分界点下面的归为负样本;4)分别计算出此时的TPR和FPR，然后在图中绘制（FPR, TPR）点。

AUC的含义：测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。或者，任意给定一个负样本，所有正样本的score中有多大比例是大于该负类样本的score

7 Hit Ratio(HR)

在top-K推荐中，HR是一种常用的衡量召回率的指标，计算公式为：
$\frac{NumberOfHits@K}{GT}$
分母是所有的测试集合，分子表示每个用户top-K列表中属于测试集合的个数的总和。

举个简单的例子，三个用户在测试集中的商品个数分别是10，12，8，模型得到的top-10推荐列表中，分别有6个，5个，4个在测试集中，那么此时HR的值是
(6+5+4)/(10+12+8) = 0.5。

def hit(gt_items, pred_items):
    count = 0
    for item in pred_items:
        if item in gt_items:
            count += 1
    return count

8 Mean Average Precision(MAP)

平均准确率AP，假使当我们使用google搜索某个关键词，返回了10个结果。当然最好的情况是这10个结果都是我们想要的相关信息。但是假如只有部分是相关的，比如5个，那么这5个结果如果被显示的比较靠前也是一个相对不错的结果。但是如果这个5个相关信息从第6个返回结果才开始出现，那么这种情况便是比较差的。这便是AP所反映的指标，与recall的概念有些类似，不过是“顺序敏感的recall。

对于用户 $u$ ，给他推荐一些物品，那么 $u$ 的平均准确率为：
$AP_u = \frac{1}{\Omega _u}\sum_{i\in \Omega_u }\frac{\sum_{j\in \Omega_u }h(p_{uj} < p_{ui})+1}{p_{ui}}$
其中， $\Omega _u$ 表示ground-truth的结果， $p_{uj}$ 表示 $i$ 物品在推荐列表中的位置， $p_{uj} < p_{ui}$ 表示 $j$ 物品在推荐列表中排在 $i$ 物品之前。

举个例子：

该user的AP为（1 + 0.66 + 0.5）／ 3 = 0.72

def AP(ranked_list, ground_truth):
    """Compute the average precision (AP) of a list of ranked items
    """
    hits = 0
    sum_precs = 0
    for n in range(len(ranked_list)):
        if ranked_list[n] in ground_truth:
            hits += 1
            sum_precs += hits / (n + 1.0)
    if hits > 0:
        return sum_precs / len(ground_truth)
    else:
        return 0

MAP表示所有用户 $u$ 的AP再取均值，计算公式如下：
$\frac{\sum_{u\in U}AP_u}{\left | U \right |}$

9 Normalized Discounted Cummulative Gain(NDCG)

累积增益CG，推荐系统中CG表示将每个推荐结果相关性的分值累加后作为整个推荐列表的得分：
$CG_k = \sum_{i=1} ^{k}rel_i$
其中， $rel_i$ 表示位置 $i$ 的推荐结果的相关性， $k$ 表示推荐列表的大小。

CG没有考虑每个推荐结果处于不同位置对整个推荐结果的影响，例如，我们总是希望相关性大大的结果排在前面，相关性低的排在前面会影响用户体验。

DCG在CG的基础上引入了位置影响因素，计算公式如下：
$DCG_k = \sum_{i=1}^{k} \frac{2^{rel_i}-1} {log_2(i+1)}$
从上面的式子可以得出：1）推荐结果的相关性越大，DCG越大。2）相关性好的排在推荐列表前面的话，推荐效果越好，DCG越大。

DCG针对不同的推荐列表之间很难进行横向评估，而我们评估一个推荐系统不可能仅使用一个用户的推荐列表及相应结果进行评估，而是对整个测试集中的用户及其推荐列表结果进行评估。那么，不同用户的推荐列表的评估分数就需要进行归一化，也就是NDCG。

IDCG表示推荐系统某一用户返回的最好推荐结果列表，即假设返回结果按照相关性排序，最相关的结果放在最前面，此序列的DCG为IDCG。因此DCG的值介于 (0,IDCG] ，故NDCG的值介于(0,1]，那么用户u的NDCG@K定义为：
$NDCG_u@k = \frac{DCG_u@k}{IDCG_u}$

平均NDCG的值为：
$\frac{\sum_{u \in U}NDCG_u@k}{IDCG_u}$

举个例子：

CG的计算结果为3+1+2+3+2 = 11。DCG的值为6.69。理想状况下，我们的IDCG排序结果的相关性应该是3，3，2，2，1，因此IDCG为7.14(具体过程不再给出)，因此NDCG结果为6.69/7.14 = 0.94。

10 Mean Reciprocal Rank(MRR)

正确检索结果值在检索结果中的排名来评估检索系统的性能。

$\frac{1}{Q} \sum_{i=1}^{|Q|} \frac{1}{rank_i}$
其中， $∣ Q ∣$ 是用户的个数， $rank_i$ 是对于第 $i$ 个用户，推荐列表中第一个在ground-truth结果中的item所在的排列位置。

举个例子：假如检索三次的结果如下，需要的结果（cat，torus，virus）分别排在3,2,1的话，此系统地MRR为（1/3 + 1/2 + 1)/3 = 11/18

如果检索出来的正确结果多于一个时，可以使用MAP（Mean Average Precision）算法。

11 ILS

ILS 衡量推荐列表多样性的指标，计算公式：
$\frac{ \sum_{b_i \in L} \sum_{b_j \in L, b_j \neq b_i} S(b_i, b_j) }{\sum_{b_i \in L }\sum_{b_j \in L, b_j \neq b_i }1}$

如果， $S(b_i,b_j)$ 计算的是 $i$ 和 $j$ 两个物品的相似性，如果推荐列表中的物品越不相似，ILS越小，那么推荐结果的多样性越好。

参考：
1、http://blog.sina.com.cn/s/blog_79bc4c470101rp4o.html
2、https://github.com/princewen/tensorflow_practice/blob/master/recommendation/Basic-Evaluation-metrics/NDCG.py
3、https://en.wikipedia.org/wiki/Receiver_operating_characteristic
4、https://en.wikipedia.org/wiki/Discounted_cumulative_gain

推荐算法常用评价指标：NDCG、MAP、MRR、HR、ILS、ROC、AUC、F1等