evaluate 分为如下三个类别:
1. Metric:包含一些常用的指标,precision、recall、accuracy、f1 等
2. Comparison:主要用于比较多个模型之间性能的优劣
3. Measurement:主要用于数据集分析
下面主要介绍一些常用的指标
分类任务常用的指标
主要包括:"accuracy", "f1", "precision", "recall"
单指标使用示例:
accuracy = evaluate.load("accuracy")
res = accuracy.compute(references=[0,1,0,1], predictions=[1,0,0,1])
输出:{'accuracy': 0.5}
多指标使用示例:
clf_metrics = evaluate.combine(["accuracy", "f1", "precision", "recall"])
res = clf_metrics.compute(references=[0,1,0,1], predictions=[1,0,0,1])
输出:{'accuracy': 0.5, 'f1': 0.5, 'precision': 0.5, 'recall': 0.5}
文本生成任务常用的指标
exact_match:精确匹配ÿ