NLP Evaluation Metric 分类问题 - 代码天地

NLP Evaluation Metric 分类问题

其他 2018-10-12 16:09:50 阅读次数: 0

版权声明：欢迎转载，转载需要明确表明转自本文 https://blog.csdn.net/u012442157/article/details/80309088

一、Background

在学会了用deeplearning做情感分类之后，如何评价自己的模型有效果呢？如果没有评价指标的话，别人也没法知道你的方法好不好，那么你所做的一切都是浮云。

最简单的评价指标就是准确率（Accuracy），常用的还有精确率（Precision）、召回率（Recall）、F值、宏平均与微平均等等。并且现在的分类基本上都是多分类问题，我就直接按照多分类来阐述。

二、评价指标

多类分类问题中，分类结果一般有4种情况:

属于类C的样本被正确分类到类C，记这一类样本数为TP
不属于类C的样本被错误分类到类C，记这一类样本数为FP
属于类别C的样本被错误分类到类C的其他类，记这一类样本数为FN
不属于类别C的样本被正确分类到了类别C的其他类，记这一类样本数为TN

1、Accuracy
准确率

A c c u r a c y = \frac{T P + T N}{T P + F P + F N + T N}

$Accuracy = \frac{TP + TN}{TP + FP + FN + TN}$
2、Precision
精确率

P r e c i s i o n = \frac{T P}{T P + F P}

$Precision = \frac{TP}{TP + FP}$
3、Recall
召回率

R e c a l l = \frac{T P}{T P + F N}

$Recall = \frac{TP}{TP + FN}$
4、F-measure
F值

F = (1 + β^{2}) * \frac{P r e c i s i o n + R e c a l l}{(β^{2} * P r e c i s i o n) + R e c a l l}

$F = (1 + \beta^{2})*\frac{Precision + Recall}{(\beta^{2}*Precision) + Recall}$
通常情况下，

β

$\beta$ 取为1。

5、Macro-averaging
宏平均是指所有类别的每一个统计指标值的算数平均值，也就是宏精确率

P r e c i s i o n_{m a c r o} = \frac{1}{N} \sum_{i = 0}^{N} P_{i}

$Precision_{macro} = \frac{1}{N}\sum\limits_{i=0}^{N}P_{i}$

R e c a l l_{m a c r o} = \frac{1}{N} \sum_{i = 0}^{N} R_{i}

$Recall_{macro} = \frac{1}{N}\sum\limits_{i=0}^{N}R_{i}$

F_{m a c r o} = \frac{2 * P r e c i s i o n_{m a c r o} * R e c a l l_{m a c r o}}{P_{m a c r o} + R_{m a c r o}}

$F_{macro} = \frac{2 * Precision_{macro} * Recall_{macro}}{P_{macro} + R_{macro}}$

这里写图片描述

这里写图片描述

三、Demo

四、Reference

不得不说这个有很多错误，但还是有值得借鉴的地方
https://sanmisanfan.github.io/2017/08/16/mulitlable-classification/

http://www.cnblogs.com/robert-dlut/p/5276927.html
https://zhuanlan.zhihu.com/p/30953081

猜你喜欢

转载自blog.csdn.net/u012442157/article/details/80309088

NLP Evaluation Metric 分类问题

COCO detection evaluation metric

COCO key point evaluation metric

关于论文姿态估计和追踪的衡量基准 official evaluation metric

LLMs NLP模型评估Model evaluation ROUGE and BLEU SCORE

NLP 的 Task 和 Metric (Perplexity，BLEU，METOR，ROUGH，CIDEr)

NLP文本分类问题

NLP笔记：分类问题常用metrics整理

使用 Scripted Metric Aggregation 遇到的问题

【NLP+医学】Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence

NLP冻手之路(3)——评价及指标函数的使用(Metric，以 BLEU和GLUE 为例)

nlp技术模块分类

NLP 算法分类总结

NLP文本分类

Unable to connect to Command Metric Stream. 问题解决

NLP 中的文本分类

NLP之文本分类

文本分类概述（nlp）

NLP任务之情感分类

NLP任务之情感分类

文本分类实战-NLP

NLP 基础问题及解析

Evaluation Stack

PyMySQL Evaluation

Metric learning

Prometheus metric

NLP

【NLP】

关于NLP的编码问题的思索

NLP待解决的问题及挑战

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)