统计机器学习【1】- 入门机器学习(二)

声明:该文章为作者整理和简略的,非原创,是多方资料的整合,为方便所以标注的原创,有错别字欢迎指正

常见的机器学习的三大分类:
分类问题、 标注问题、回归问题

一、分类问题

在监督学习中,当输出变量有有限个离散变量值时,预测问题就成了分类问题。输入变量 X X 可以是离散的,也可以是连续的,,监督学习从数据中学习一个分类模型或分类决定函数,称为分类器(classifier)
在这里插入图片描述
评价分类性能指标一般是分类准确率(accuracy),定义为:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。

对于二分类问题常用的评价指标是精确率与召回率。通常以关注的类为正类,其他类为负类,分类器在测试集上的预测或正确或不正确。4种情况出现的总数分别记作:
T P TP——将正类预测为正类数;

F N FN——将正类预测为负类数;

F P FP——将负类预测为正类数;

T N TN——将负类预测为负类数;

精确率定义为
P = T P T P + F P P = \frac{TP}{TP + FP}
召回率定义为
R = T P T P + F N R = \frac{TP}{TP + FN}

此外,还有 F 1 F_1 值,是精确率和召回率的调和均值,即

2 F 1 = 1 P + 1 R \frac{2}{F_1} = \frac{1}{P} + \frac{1}{R}
F 1 = 2 T P 2 T P + F P + F N F_1 = \frac{2TP}{2TP + FP + FN}

精确率和召回率都高时, F 1 F_1 值也会高。

二、标注问题

标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型,使它能够对观测序列给出标记作为预测。
在这里插入图片描述

三、回归问题

在这里插入图片描述
分类:
(1)输入变量个数:

  • 一元回归
  • 多元回归
    (2)模型类型:
  • 线性回归
  • 非线性回归

最常用的损失函数:平方损失函数

参考文献:
【1】统计学习方法-李航

猜你喜欢

转载自blog.csdn.net/weixin_43763859/article/details/106298663
今日推荐