吃瓜教程 第一、二章 打卡

基本术语:

  • 数据集
  • 示例 或 样本
  • 属性 或 特征
  • 属性空间 或 样本空间 或 输入空间
  • 特征向量
  • 学习 或 训练

分类

根据预测值分类:

  • 离散值-分类
  • 连续值-回归

根据涉及类别分类:

  • 两个类别-二分类
  •  正类
    
  •  负类 或 反类
    
  • 多个类别-多分类

根据训练数据是否拥有标记信息:

  • 监督学习(分类和回归)
  • 无监督学习(聚类)

泛化:学得的模型适应于新样本的能力

模型的评估与选择

  • 错误率:分类错误的样本数占样本总数的比例
  • 精度:1-错误率
  • 误差:实际预测输出与样本的真实输出之间的差异
  • 训练误差 或 经验误差
  • 泛化误差:在新样本上的误差
  • 过拟合

评估方法

  1. 留出法
  2. 交叉验证法
  3. 留一法
  4. 自助法
    在数据集较小、难以有效划分训练/测试集时很有用
    在初始数据量足够时,留出法和交叉验证法更常用一些
  5. 调参与最终模型

性能度量

  1. 错误率与精度
  2. 查准率、查全率与F1
  3. ROC与AUC

猜你喜欢

转载自blog.csdn.net/qq_36911128/article/details/121362160