4-分类-监督学习-机器学习

参考:李航《统计学习方法》


分类(classification)

    输入变量X的值可以是连续的,也可以是离散的,输出变量 Y的值离散的,这时对Y进行 预测变成了 分类问题。可能的输出Y值称为 类(class)。当分类的 Y值多个时,称为 多分类问题
分类器(classifier)监督学习从数据中学习到的函数

如何评价分类器的性能?某个分类器好,还是不好?

1)通用的评价指标

分类准确率(accuracy): 给定数据集,分类器能正确分类的样本数占总样本数的比例。

2)二分类问题中的评价指标

二分类中,关注的类为正类,其他为负类。
TP =将正类预测为正类的数目。
FP =将负类预测为正类的数目。
TP+FP =将样本预测为正类的数目。
FN =将正类预测为负类的数目。
TN =将负类预测为负类的数目。
FN+TN= 将样本预测为负类的数目。
精确率(precision) =P=TP/(TP+FP)=正类中预测正确的数目/所有预测为正类的数目
召回率(recall) =R=TP/(TP+FN)=正类中预测正确的数目/正类的数目
F1 =精确率和召回率的调和均值

分类的应用场景

1.在银行业务中, 可以构建一个客户分类模型, 对客户按照贷款风险的大小进行分类
2.在网络安全领域,可以利用日志数据的分类对非法入侵进行检测
3.在图像处理中 , 分类可以用来检测图像中是否有人脸出现
4.在手写识别中, 分类可以用于识别手写的数字
5.在互联网搜索中, 网页的分类可以帮助网页的抓取、索引与排序

猜你喜欢

转载自blog.csdn.net/yeziand01/article/details/80539706