文本分类——怎么评价训练出的分类模型？

模型的评价就是对模型的准确性和覆盖性的评价。
1. 当然最保险的方法是抽取大量预测实例，进行人工校对。原因是第1实际应用中没有太多的标注测试集可用。第2当预测的实例类别分布不均衡时，很可能导致评价出的结果不能反映真实的准确性。
2. 使用交叉验证调试模型。交叉验证只适用在模型的训练阶段，也就是说要把语料分成3部分，第1部分作为训练集用来训练模型；第2部分作为验证集用来调试模型；第3部分作为测试集用来评价模型的泛化能力。交叉验证结束后，会选出一个准确性最高的模型。
3. 使用准确率和召回率来评价模型。这一部分是在测试集或随机抽取的预测实例上做的。

交叉验证
模型准确率与召回率

交叉验证

简单交叉验证
首先随机地将已给数据分为两部分，一部分作为训练集，另一部分作为验证集；然后用训练集在各种条件下训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型。
S折交叉验证
首先随机地将已给数据切分为S个互不相交的大小相同的子集；然后利用S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S种选择重复进行；最后选出S次评测中平均测试误差最小的模型。
留一交叉验证
S折交叉验证的特殊情形是S=N，N是给定数据集的容量，称为留一交叉验证。

模型准确率和召回率

准确率和召回率针对不同的应用场景可以使用不同的定义方法。准确率主要侧重描述模型预测结果的准确性。召回率侧重描述模型正确预测了多少测试集中的数据，主要关注的是模型的覆盖性。

准确率=正确预测样本数量/测试集样本总量
召回率=正确预测样本数量/模型给出预测结果的样本数量
召回率（某一个类别i）=在类别i下的正确预测的样本数量/类别i下的样本总量

准确率描述了模型进行预测时的准确性。而不在意模型预测的覆盖性能。比如一个商品分类模型，测试集中含有1000个样本，经过模型后，只对100个样本给出了预测类别，虽然经过人工校对这100个样本的预测结果都是正确的，模型准确率是100%，但是剩下的900个样本都没有给出预测结果，也就是说剩下的900个样本的类别，这个模型都没有覆盖到。召回率太低了。召回率描述了模型对于测试集样本的覆盖率。

文本分类——怎么评价训练出的分类模型？

交叉验证

模型准确率和召回率

猜你喜欢