MLb-003 44《机器学习》周志华 第三章 线性模型

第三章 线性模型

此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…


3.1 基本形式

  • 模型内容
    线性模型
    函数形式
    向量形式
    非线性模型:在线性模型的基础上引入层级结构或高维映射而得

  • 可解释性:w直观表达了各属性在预测中的重要性

3.2 线性回归

  • 定义:试图学的一个线性模型以尽可能准确地预测实值输出标记

  • 离散属性与序关系
    有序属性值:连续化
    无序属性值:one-hot化

  • 性能度量:均方误差
    公式
    欧氏距离
    最小二乘法:基于均方误差对模型求解的方法(试图找到一条直线,使所有样本到直线上的欧氏距离直和最小)
    最小二乘“参数估计”

  • 多元线性回归
    秩矩阵(full-rank matrix)或正走矩阵(positive definite matrix)
    归纳偏好决定多个解的选择(常见做法:引入正则化项)

  • 对数线性回归:令模型预测值逼近u的衍生物
    形式上认为线性回归,但实质已是再求输入空间的非线性函数映射
    线性回归模型的预测值与真实值标记联系

3.3 对数几率回归(逻辑回归)

  • 分类任务
    二分类:单位阶跃函数
    替代函数:在一定程度上近似单位阶跃函数,单调可微
    联系

  • 几率
    对数几率函数->带入假设->变换
    几率是样本为正例和样本为负例的比值
    对数几率

  • 优点
    直接对分类可能性进行建模,无需事先假设数据分布
    可得到近似概率预测
    对率函数任意阶可导的凸函数,方便求最优解

  • 极大似然法
    凸优化理论
    经典的数值优化算法:梯度下降法、牛顿法

3.4 线性判别分析(LDA)

  • LDA思想
    给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离

  • 二分类问题上——Fisher判别分析
    类内散度矩阵Sw
    类间散度矩阵Sb
    LDA可从贝叶斯决策理论的角度来阐释
    Sb与Sw的广义瑞利商:LDA最大化的目标
    LDA可达到的最优分类:当两类数据同先验、满足高斯分布、协方差相等

  • LDA推广到多分类
    矩阵的迹

3.5 多分类学习

  • 基本思路:拆解法-将多分类任务拆为若干个二分类任务求解

  • 最经典的拆分策略

    • 一对一(OvO)
    • 一对其余(OvR)
    • 多对多(MvM)
      • 最常用技术:纠错输出码(ECOC):编码矩阵
        二元码:指定正类和反类
        三元码:指定停用类
      • OvO和OvR是MvM的特例

3.6 类别不平衡问题

  • 定义:分类任务中不同类别的训练样例数目差别很大的情况
  • 处理的基本方法:再平衡/再缩放
    • 代价敏感学习的基础
    • 解决现实中没有“无偏采样”的做法
      欠采样/下采样
      过采样/上采样
      阈值移动

猜你喜欢

转载自blog.csdn.net/Tinky2013/article/details/88679951