sklearn逻辑回归

逻辑回归自己的理解
1.对机器学习的认识
引用大牛的观点:
机器学习算法没有所谓的优劣,也没有绝对的高性能,只有在特定场景、数据和特征下更适合的机器学习算法。
2.机器学习应用方法:
应用机器学习,千万不要一上来就试图做到完美,先做一个基本的model出来,再进行后续的分析步骤,一步步提高。所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,以及我们模型下的bad case和产生的原因』等等
还有以下重要的经验
『对数据的认识太重要了!』
『数据中的特殊点/离群点的分析和处理太重要了!』
『特征工程(feature engineering)太重要了!在很多Kaggle的场景下,甚至比model本身还要重要』
『要做模型融合(model ensemble)!』
通常遇到缺值的情况,我们会有几种常见的处理方式:
如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了
如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中
如果缺值的样本适中,而该属性为连续值特征属性,有时候我们会考虑给定一个step(比如这里的age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
有些情况下,缺失的值个数并不是特别多,那我们也可以试着根据已有的值,拟合一下数据,补充上。

1.http://blog.csdn.net/xlinsist/article/details/51289825
2.http://blog.csdn.net/han_xiaoyang/article/details/49797143(实例 )
3.http://blog.csdn.net/abcjennifer/article/details/7716281(斯坦福 理论)
4.http://blog.csdn.net/cherdw/article/details/55813071(算法的评估方法 )
5.https://www.kaggle.com/omarelgabry/a-journey-through-titanic(另一个实例代码)
6.https://jingyan.baidu.com/article/93f9803fe29aece0e46f55cb.html(缺失值补充)
7.http://blog.csdn.net/fennvde007/article/details/37693523(pandas画图)
8.http://blog.csdn.net/qq_34264472/article/details/53814653(pandas画图seaborn简介和实例)

猜你喜欢

转载自blog.csdn.net/qq_26645205/article/details/78784740