线性模型
线性模型(linear model)试图学的一个通过属性的线性组合来进行预测的函数。
基本形式:
属性的处理
线性回归中处理的属性都是实数值,所以针对离散属性需要转换
-
属性间存在"序"(order)关系
通过连续化将其转化为连续值
例:高度的高中低,可转换为{1.0,0.5,0.0} -
属性间不存在序关系
k个属性值,直接转换为k维向量
例:瓜类的取值,西瓜、南瓜、黄瓜,转换为(0,0,1),(0,1,0),(1,0,0)
线性回归 v.s. 正交回归
注:
线性回归:最小化蓝色误差
正交回归:最小化红色误差
最小二乘估计
基于均方误差最小化进行模型求解的方法称为“最小二乘法”
均方误差公式:
极大似然估计
用途:估计概率分布的参数值
目的:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。
如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:
求解极大似然函数
ML估计:求使得出现该组样本的概率最大的θ值
由于对数函数ln是单调递增函数,所以lnL和L拥有相同的最大值点,而且利用对数函数的性质可以简化L中的连乘项(原理:lnab =lna + lnb)。
补充
- 机器学习中,因为要达到训练最优化的效果,凹凸定义与数学上的定义是相反的。
- 梯度:多元函数的一阶导数,定义如下:
- Hessian矩阵:
- 机器学习三要素
1、模型:根据具体问题,确定假设空间
2、策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)
3、算法:求解损失函数,确定最优模型
单变量线性回归
求解过程:
证明:凸函数的Hessian (海塞) 矩阵是半正定的,利用半正定矩阵的判别定理之一:若实对称矩阵的所有顺序主子式均为非负,则该矩阵为半正定矩阵。
用凸函数求最值的思路,令w和b的导数均为0,得到w和b的最优解的闭式(closed-form)解, w ∗ w^* w∗和 b ∗ b^* b∗
多元线性回归
为方便式子进行化简,将b吸收入w中得到w= ( w ; b ) ,
同时对x进行整理:
对数几率回归
在线性模型的基础上套一个映射函数来实现分类功能。
单位阶跃函数:
若预测值z大于0就判为正例,小于0则判为反例,预测值为临界值0则可以任意判别。
对数几率函数(logistic function):
线性判别(Linear Disciminant Analysis /LDA)
算法原理:
从几何的角度,让全体训练样本经过投影后:
- 异类样本的中心尽可能远
- 同类样本的方差尽可能小
方差和协方差:
协方差到协方差矩阵:
优化目标:最大化类中心之间的距离
推导公式: