【Kaggle从入门到放弃】(03):python机器学习学习路径(附资源)不断更新。。。

Python机器学习

本博文或许能帮你成功上手,从0到1掌握 Python 机器学习,至于后面再从1到100变成机器学习专家,就要看你自己的努力了。

第一步:基本 Python 技能

软件安装 :Anaconda,这是一个可用于 Linux、OS X 和 Windows 上的工业级的 Python 实现,完整包含了机器学习所需的软件包,包括 Numpy、Pandas、scikit-learn 和 matplotlib,如果需要其它包,比如xgboost,可以方便的进行下载,更新和配置。其中也包含了 Jupyter Notebook,这是一个用在我们许多教程中的交互式环境。我推荐安装 Python 2.7,因为现有的机器学习相关的很多资源都是2.7版本实现的。

资源1:菜鸟教程——Python 2.X。

资源2:应用于数据科学中的Python语言:https://elitedatascience.com/learn-python-for-data-science

第二步:机器学习基础理论知识

对实践来说,你并不需要获得机器学习博士般的理论理解——就像要成为一个高效的程序员并不必要进行计算机科学理论的学习。

资源1:吴恩达在 Coursera 上的《机器学习》课程视频, 跳过Octavez章节(一个类似于 Matlab 的与你 Python 学习无关的语言)。视频课程可以在网易看,也可以去Coursera 上看。推荐结合黄海广博士的笔记一起学习。

Coursera 上的《机器学习》:https://www.coursera.org/learn/machine-learning

资源2:用于数据科学的统计学知识:https://elitedatascience.com/learn-statistics-for-data-science

了解统计学知识,特别是贝叶斯概率,对于许多机器学习算法来说都是基本的要求。

第三步:科学计算 Python 软件包概述

在 Python 之外,还有一些常用于执行实际机器学习的开源软件库。这些只是 Python 机器学习中常用的一些核心库的一部分,但是理解它们应该能让你在后面遇到其它软件包时不至于感到困惑。

numpy——主要对其 N 维数组对象有用 。

pandas——Python数据分析库,包括数据框架等结构 。

matplotlib——一个 2D 绘图库,可产生出版物质量的图表。

seaborn——有高层面的绘图函数,可以绘制许多最常见和有用的图表。

scikit-learn——用于数据分析和数据挖掘的机器学习算法 。

资源1:书籍《利用Python进行数据分析》,作者Wes McKinney是pandas的发起人。主要讲解了numpy, pandas,matplotlib.

资源2:scikit-learn 0.18 中文文档:http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030181

scikit-learn 0.19 英文文档:http://scikit-learn.org/stable/user_guide.html

第四步:使用 Python 学习机器学习

使用Python机器学习库scikit-learn,自己动手实现机器学习算法.

使用Python及其机器学习库,我们不仅已经了解了一些最常见和知名的机器学习算法(k 近邻、k 均值聚类、支持向量机等),还研究了强大的集成技术(随机森林)和一些额外的机器学习任务(降维算法和模型验证技术)。

资源1:书籍《机器学习实战》

第五步:Kaggle比赛,黄金王的宝库!

Kaggle比赛官网:https://www.kaggle.com

推荐理由:

1. 每个竞赛都是独立的。无需设置项目范围然后收集数据,这让你有时间专注其它技能。

2. 练习就是实践。学习数据科学的最好方法是在做中学。只要没有每场竞赛都获胜的压力,你就可以练习各种有趣的问题。

3. 在Kernels中学习,在Discussion中交流!讨论和获胜者采访很有启发性。每个竞赛都有自己的讨论板块与获胜者简报。你可以窥见更有经验的数据科学家的思考过程。Kernels有代码!Kernels有代码!Kernels有代码!查阅得票最多的 kernel!

比赛是为了更好地学习,而不是赚钱!

尽管奖金很诱人,但更有价值(也更可靠)的回报是为你的未来事业所获得的技能。

因此,建议你明智地选择参与项目。参加竞赛能帮你深入到你希望长期参与的技术领域中。长远来看,参与能给你带来相关经验的竞赛比参加有最高奖金的竞赛更好。

多动手,立马行动吧!开始入门级比赛:泰坦尼克号.Jack and rose.

资源1:第一个逻辑回归模型和结果提交https://zhuanlan.zhihu.com/p/27550334

本博文中提到的相关书籍和笔记下载:https://download.csdn.net/download/misterjiajia/10559083

猜你喜欢

转载自blog.csdn.net/misterjiajia/article/details/81170385