在这里插入图片描述

线性模型

线性模型（linear model）试图学的一个通过属性的线性组合来进行预测的函数。

基本形式：

在这里插入图片描述

属性的处理

线性回归中处理的属性都是实数值，所以针对离散属性需要转换

属性间存在"序"(order)关系
通过连续化将其转化为连续值
例:高度的高中低，可转换为{1.0,0.5,0.0}
属性间不存在序关系
k个属性值，直接转换为k维向量
例：瓜类的取值，西瓜、南瓜、黄瓜，转换为(0,0,1),(0,1,0),(1,0,0)

线性回归 v.s. 正交回归

在这里插入图片描述
注：
线性回归：最小化蓝色误差
正交回归：最小化红色误差

最小二乘估计

基于均方误差最小化进行模型求解的方法称为“最小二乘法”
均方误差公式：

在这里插入图片描述

极大似然估计

用途：估计概率分布的参数值
目的：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
原理：极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。
似然函数（linkehood function）：联合概率密度函数称为相对于的θ的似然函数。
在这里插入图片描述
如果是参数空间中能使似然函数最大的θ值，则应该是“最可能”的参数值，那么就是θ的极大似然估计量。它是样本集的函数，记作：

求解极大似然函数
ML估计：求使得出现该组样本的概率最大的θ值
在这里插入图片描述
由于对数函数ln是单调递增函数，所以lnL和L拥有相同的最大值点，而且利用对数函数的性质可以简化L中的连乘项（原理：lnab =lna + lnb）。