文本分类——怎么评价训练出的分类模型?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/baiziyuandyufei/article/details/82721939

模型的评价就是对模型的准确性和覆盖性的评价。
1. 当然最保险的方法是抽取大量预测实例,进行人工校对。原因是第1实际应用中没有太多的标注测试集可用。第2当预测的实例类别分布不均衡时,很可能导致评价出的结果不能反映真实的准确性。
2. 使用交叉验证调试模型。交叉验证只适用在模型的训练阶段,也就是说要把语料分成3部分,第1部分作为训练集用来训练模型;第2部分作为验证集用来调试模型;第3部分作为测试集用来评价模型的泛化能力。交叉验证结束后,会选出一个准确性最高的模型。
3. 使用准确率和召回率来评价模型。这一部分是在测试集或随机抽取的预测实例上做的。

  • 交叉验证
  • 模型准确率与召回率

交叉验证

  1. 简单交叉验证
    首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为验证集;然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
  2. S折交叉验证
    首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
  3. 留一交叉验证
    S折交叉验证的特殊情形是S=N,N是给定数据集的容量,称为留一交叉验证。

模型准确率和召回率

准确率和召回率针对不同的应用场景可以使用不同的定义方法。准确率主要侧重描述模型预测结果的准确性。召回率侧重描述模型正确预测了多少测试集中的数据,主要关注的是模型的覆盖性。

准确率=正确预测样本数量/测试集样本总量
召回率=正确预测样本数量/模型给出预测结果的样本数量
召回率(某一个类别i)=在类别i下的正确预测的样本数量/类别i下的样本总量

准确率描述了模型进行预测时的准确性。而不在意模型预测的覆盖性能。比如一个商品分类模型,测试集中含有1000个样本,经过模型后,只对100个样本给出了预测类别,虽然经过人工校对这100个样本的预测结果都是正确的,模型准确率是100%,但是剩下的900个样本都没有给出预测结果,也就是说剩下的900个样本的类别,这个模型都没有覆盖到。召回率太低了。召回率描述了模型对于测试集样本的覆盖率。

猜你喜欢

转载自blog.csdn.net/baiziyuandyufei/article/details/82721939
今日推荐