【任务2 - 逻辑回归算法梳理】
时长:2天
1、逻辑回归与线性回归的联系与区别
2、 逻辑回归的原理
3、逻辑回归损失函数推导及优化
4、 正则化与模型评估指标
5、逻辑回归的优缺点
6、样本不均衡问题解决办法
7. sklearn参数学习
时长:两天
参考:西瓜书
cs229吴恩达机器学习课程
李航统计学习
谷歌搜索公式推导参考:http://t.cn/EJ4F9Q0
1/逻辑回归与线性回归的联系与区别
区别:
线性回归使用的是最小化平方误差损失函数,逻辑回归使用对似然函数进行参数估计;线性回归用来做预测,逻辑回归用来分类;最大的区别是因变量不同
联系:
都属于广义线性模型,可以认为逻辑回归的输入是线性回归的输出,将sigmoi曲线作用于线性回归的输出得到输出结果。
2/逻辑回归的原理
在书上注释了
3/逻辑回归损失函数推导及优化
可以采用mission_1中的牛顿法
4/正则化与模型评估指标
正则化通常意义上来说有L0,L1和L2正则和核函数规则化
L0是指w向量中非0的元素的个数,L1范数是指w向量的绝对值之和,L2是参数矩阵w的2范数。
L1正则化更倾向于让模型更稀疏,而L2正则则会对参数较大的值惩罚更大,倾向于让模型参数都小小的。
参考博文[https://blog.csdn.net/woai8339/article/details/81416422 ]
5/逻辑回归的优缺点
优点:计算代价低,对数据中小噪声的鲁棒性好。
缺点:容易欠拟合,分类精度不高
参考博文[https://blog.csdn.net/touch_dream/article/details/79371462 ]
6/样本不均衡解决办法
可以采用k折交叉验证
参考博文[https://blog.csdn.net/zhangf666/article/details/78860376 ]
7/ sklearn 参数学习
正则化选择参数:penalty
优化算法选择参数:solver
分类方式选择参数:multi_class
类权重参数:class_weight
样本权重参数:sample_weight
参考博文[https://blog.csdn.net/sun_shengyun/article/details/53811483 ]
ddl不该是第一生产力,必要的事赶紧做