sklearn逻辑回归

逻辑回归自己的理解
1.对机器学习的认识
引用大牛的观点：
机器学习算法没有所谓的优劣，也没有绝对的高性能，只有在特定场景、数据和特征下更适合的机器学习算法。
2.机器学习应用方法：
应用机器学习，千万不要一上来就试图做到完美，先做一个基本的model出来，再进行后续的分析步骤，一步步提高。所谓后续步骤可能包括『分析model现在的状态(欠/过拟合)，分析我们使用的feature的作用大小，进行feature selection，以及我们模型下的bad case和产生的原因』等等
还有以下重要的经验：
『对数据的认识太重要了！』
『数据中的特殊点/离群点的分析和处理太重要了！』
『特征工程(feature engineering)太重要了！在很多Kaggle的场景下，甚至比model本身还要重要』
『要做模型融合(model ensemble)！』
通常遇到缺值的情况，我们会有几种常见的处理方式：
如果缺值的样本占总数比例极高，我们可能就直接舍弃了，作为特征加入的话，可能反倒带入noise，影响最后的结果了
如果缺值的样本适中，而该属性非连续值特征属性(比如说类目属性)，那就把NaN作为一个新类别，加到类别特征中
如果缺值的样本适中，而该属性为连续值特征属性，有时候我们会考虑给定一个step(比如这里的age，我们可以考虑每隔2/3岁为一个步长)，然后把它离散化，之后把NaN作为一个type加到属性类目中。
有些情况下，缺失的值个数并不是特别多，那我们也可以试着根据已有的值，拟合一下数据，补充上。

1.http://blog.csdn.net/xlinsist/article/details/51289825
2.http://blog.csdn.net/han_xiaoyang/article/details/49797143（实例）
3.http://blog.csdn.net/abcjennifer/article/details/7716281（斯坦福理论）
4.http://blog.csdn.net/cherdw/article/details/55813071（算法的评估方法）
5.https://www.kaggle.com/omarelgabry/a-journey-through-titanic（另一个实例代码）
6.https://jingyan.baidu.com/article/93f9803fe29aece0e46f55cb.html(缺失值补充）
7.http://blog.csdn.net/fennvde007/article/details/37693523(pandas画图）
8.http://blog.csdn.net/qq_34264472/article/details/53814653（pandas画图seaborn简介和实例）

猜你喜欢