回归算法,线性回归,logistics

回归,又称 多重回归分析 :指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法
通常Y1,Y2,…,Yi是 因变量 ,X1、X2,…,Xk是 自变量
Regression ,一种数学模型
分类:
一元线性回归模型,由大体上有线性关系的一个自变量和一个
因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。
通常假定随机误差的均值为0,方差为σ^2(σ^2﹥0,σ^2与X的值无关)。
若进一步假定随机误差遵从正态分布,就叫做正态线性模型。
一般的,若有k个自变量和1个因变量,则因变量的值分为两部分:
一部分由自变量影响,即表示为它的函数,函数形式已知且含有未知参数;
另一部分由其他的未考虑因素和随机性影响,即随机误差。
线性回归分析模型:当函数为参数未知的线性函数时
非线性回归分析模型:当函数为参数未知的非线性函数时
多重回归:当因变量个数大于1时
多元回归:当自变量个数大于1时
content:
在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量。
通常用逐步回归、向前回归和向后回归等方法
从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数。通常用最小二乘法。
回归主要的种类有:线性回归、曲线回归、二元logistic回归、多元logistic回归

多元线性回归
有两个或两个以上的自变量
逐步回归:
1)向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止
2)向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止
3)逐步筛选法:综合上述两种方法

Logistic Regression ——–> http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=9162199&id=4223505
属于广义线性回归模型
基本原理:
(1)找一个合适的预测函数(Andrew Ng的公开课中称为hypothesis),一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程时非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。
(2)构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(θ)函数,表示所有训练数据预测值与实际类别的偏差。
(3)显然,J(θ)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法,Logistic Regression实现时有的是梯度下降法(Gradient Descent)。
预测函数,一般用soft max
损失函数,用极大似然估计求解
优点:
1)预测结果是界于0和1之间的概率;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释;
4)实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;
缺点:
1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。?需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着?log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。
3)容易欠拟合,分类精度可能不高

猜你喜欢

转载自blog.csdn.net/m0_37758017/article/details/79891318