评估库:evaluate【分类任务、文本生成任务】

evaluate 分为如下三个类别:

1. Metric:包含一些常用的指标,precision、recall、accuracy、f1 等

2. Comparison:主要用于比较多个模型之间性能的优劣

3. Measurement:主要用于数据集分析

下面主要介绍一些常用的指标

分类任务常用的指标

主要包括:"accuracy", "f1", "precision", "recall"

单指标使用示例:

accuracy = evaluate.load("accuracy")
res = accuracy.compute(references=[0,1,0,1], predictions=[1,0,0,1])

输出:{'accuracy': 0.5}

多指标使用示例:

clf_metrics = evaluate.combine(["accuracy", "f1", "precision", "recall"])
res = clf_metrics.compute(references=[0,1,0,1], predictions=[1,0,0,1])

输出:{'accuracy': 0.5, 'f1': 0.5, 'precision': 0.5, 'recall': 0.5}

文本生成任务常用的指标

exact_match:精确匹配ÿ

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131500112
今日推荐