史上最全机器学习资源整理

机器学习资源浩如烟海,本文对机器学习资源做了相关整理,希望大家能够根据自己的细分研究领域,着重关注某些学习资源。可能某几个网页链接打不开,那说明需要“科学”上网。

机器学习也是一门实践学科,最好的学习就是不断的实践,推荐 BigQuant 人工智能量化投资 一站式的python+机器学习+量化投资平台,打开浏览器就可以使用投资数据和机器学习算法。

书籍

course

python库

  • BigQuant -人工智能量化投资平台 python + 机器学习 + 量化投资 一站式学习实践交易平台,打开浏览器就可以使用投资数据和机器学习算法。

  • MLlib in Apache Spark:Spark下的分布式机器学习库。官网

  • scikit-learn:基于SciPy的机器学习模块。官网

  • graphlab-create:包含多种机器学习模块的库(回归、聚类、推荐系统、图分析等),基于可以磁盘存储的DataFrame。官网

  • BigML:连接外部服务器的库。官网

  • pattern:Python的web挖掘模块。官网

  • NuPIC:Numenta公司的智能计算平台。官网

  • Pylearn2:基于Theano的机器学习库。官网

  • hebel:Python编写的使用GPU加速的深度学习库。官网

  • gensim:主题建模工具。官网

  • PyBrain:另一个机器学习库。官网

  • Crab:可扩展的、快速推荐引擎。官网

  • python-recsys:Python实现的推荐系统。官网

  • thinking bayes:关于贝叶斯分析的书籍。官网

  • Restricted Boltzmann Machines:Python实现的受限波尔兹曼机。官网

  • Bolt:在线学习工具箱。官网

  • CoverTree:cover tree的Python实现,scipy.spatial.kdtree便捷的替代。官网

  • nilearn:Python实现的神经影像学机器学习库。官网

  • Shogun:机器学习工具箱。官网

  • Pyevolve:遗传算法框架。官网

  • Caffe:考虑了代码清洁、可读性及速度的深度学习框架。官网

  • breze:深度及递归神经网络的程序库,基于Theano。官网

  • TensorFlow:该系统旨在促进对机器学习的研究,同时也让机器学习研究原型过渡到生产系统更加高效容易。官网

  • Chainer:一个基于 Python 并且独立的深度学习模型开源框架。官网

数据分析

  • BigQuant:使用机器学习直接开发量化策略的云端平台。官网

  • SciPy:基于Python的数学、科学、工程开源软件生态系统。官网

  • NumPy:Python科学计算基础包。官网

  • Numba:Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用。官网

  • NetworkX:为复杂网络使用的高效软件。官网

  • Pandas:这个库提供了高性能、易用的数据结构及数据分析工具。官网

  • Open Mining:Python中的商业智能工具(Pandas web接口)。官网

  • PyMC:MCMC采样工具包。官网

  • zipline:Python的算法交易库。官网

  • PyDy:全名Python Dynamics,协助基于NumPy、SciPy、IPython以及 matplotlib的动态建模工作流。官网

  • SymPy:符号数学Python库。官网

  • statsmodels:Python的统计建模及计量经济学库。官网

  • astropy:Python天文学程序库,社区协作编写。官网

  • matplotlib:Python的2D绘图库。官网

  • bokeh:Python的交互式Web绘图库。官网

  • plotly:Python and matplotlib的协作web绘图库。官网

  • vincent:将Python数据结构转换为Vega可视化语法。官网

  • d3py:Python的绘图库,基于D3.js。官网

  • ggplot:和R语言里的ggplot2提供同样的API。官网

  • Kartograph.py:Python中渲染SVG图的库,效果漂亮。官网

  • pygal:Python下的SVG图表生成器。官网

  • pycascading:官网

paper & survey

A Few Useful Things to Know about Machine Learning Domingos, 2012 介绍了机器学习中12个重要问题和研究人员在机器学习中可能遇到的一些陷进。

Top 10 Algorithms in Data Mining Wu, 2008 本文介绍了IEEE识别的十大数据挖掘算法。2006年12月国际数据挖掘会议(ICDM):C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,朴素贝叶斯和CART。 这十大算法是研究界最有影响力的数据挖掘算法之一。

Semi-Supervised Learning Literature Survey Zhu, 2007 这篇文献主要介绍了半监督学习的相关理论和运用。

Interestingness Measures for Data Mining: A Survey Geng, 2006 这篇文献主要介绍在数据挖掘过程中的一些常用的有趣的数据处理方法,非常实用。

The Boosting Approach to Machine Learning: An Overview Schapire, 2003 这篇文献主要介绍了AdaBoost算法理论知识和运用。

Two Faces of Active Learning Dasgupta, 2011 这篇文章介绍了主动学习,有一定的难度。

Supervised Machine Learning: A Review of Classification Techniques Kotsiantis, 2007 这篇文章详细介绍了监督式机器学习在分类技术中的运用。

Data Clustering: 50 Years Beyond K-Means Jain, 2010 这篇文章简要概述了聚类,总结了众所周知的聚类方法,并聚类算法和关键问题、面临挑战、聚类研究方向进行了详细地讨论,可以看做是聚类算法的文献综述。

Representation Learning: A Review and New Perspectives Bengio, 2012 是介绍表征学习的一篇好文。

An Introduction to Variable and Feature Selection Guyon, 2003 这篇文章介绍了关于变量选择和特征选择的相关研究,已经涉及到特征工程的内容。

A Survey of Dimension Reduction Techniques Fodor, 2002 这篇文章写道数十年来数据收集和存储能力的进步导致大多数科学领域的信息超载。 研究人员在域名工作如工程,天文学,生物学,遥感,经济学等 消费者交易,能够收集到越来越多的观测,传统的数据分析方法面临不少挑战,因此引出了数据降维技术的讨论。

Ensemble Approaches for Regression: a Survey Moreira, 2012 本文讨论了不同研究领域的综合回归方法。

Survey of Reinforcement Learning in Relational Domains Otterlo, 2005 增强学习的一篇经典论文。

Reinforcement Learning: A Survey Kaelbling, 1996 本文从计算机科学角度对增强学习进行了研究,是一篇有一定历史的文章。它是为熟悉机器学习的研究人员提供的,有一定难度,但是确实经典。

Time-Series Data Mining Esling, 2012 这篇文章深入介绍了针对时间序列数据 进行数据挖掘的相关技术。

A Survey on Transfer Learning Pan, 2010 许多机器学习和数据挖掘算法的一个主要假设是训练集和测试集数据必须在相同的特征空间并具有相同的分布。然而,在许多现实世界的应用中,这种假设可能不成立。因此这正是迁移学习适用的情形,本文详细介绍了迁移学习的理论和具体运用。

Recent advances in Personalized Recommender Systems Liu, 2009 介绍了个人推荐系统的最新研究成果。

A Review of Machine Learning for Automated Planning Jimenez, 2009 本文回归了强化学习并重点回顾了在自动规划具体问题中使用到的机器学习方法。

A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery Freitas, 2003 本章特别讨论了进化算法在数据挖掘和知识发现中(重点是分类任务)的使用,尤其是介绍了遗传算法和遗传规划。

Survey on Frequent Pattern Mining Goethals, 2003 这是一本介绍关联规则、分类算法的数据挖掘书籍,适合数据挖掘的人员阅读,这个书尤其介绍了以亚马逊”啤酒与尿布”的例子,并指出数据挖掘在商品销售、产品推荐中的重大价值。

数学知识

《Convex Optimization》

Boyd的经典书籍,被引用次数超过14000次,面向实际应用,并且有配套代码,是一本不可多得的好书。

《矩阵分析》 Roger Horn。矩阵分析领域无争议的经典

《All Of Statistics》 机器学习这个方向,统计学也一样非常重要。推荐All of statistics,这是CMU的一本很简洁的教科书,注重概念,简化计算,简化与Machine Learning无关的概念和统计内容,可以说是很好的快速入门材料。

《Nonlinear Programming, 2nd》 最优化方法,非线性规划的参考书,这里的链接给出的是一本中文翻译版本,学习起来不是那么吃力。

Numerical Optimization》 第二版,Nocedal著,非常适合非数值专业的学生和工程师参考,算法流程清晰详细,原理清楚。

《Introduction to Mathematical Statistics》 第六版,Hogg著,本书介绍了概率统计的基本概念以及各种分布,以及ML,Bayesian方法等内容。

《Introduction to Linear Algebra》 (3rd Ed.)

作者Gilbert Strang. 这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的概念讨论得比较透彻。

博客 & 网站社区

爱可可爱生活 新浪博客 听说博主是北邮的一位教授,博客主要发布机器学习、深度学习的最新研究、论文。博主经常凌晨2、3点还在分享干货,目前共3.5万博文,可见作者付出很多心血。勤劳的博主每日还要整理24小时热门分享和每周精华,小伙伴再也不用担心错过好文。

算法组 新浪微博 博主来自微软搜索引擎部门。该微博主要分享数据挖掘、大数据、算法、IT相关资讯。

AndrewNg吴恩达 新浪微博 全球机器学习三大牛人之一

李航博士 新浪微博 《统计学习方法》作者,现为诺亚方舟实验室主任

南大周志华 新浪微博 国内机器学习方面的大牛,粉丝不多,博文也不经常发。

吴军博士 新浪微博 《浪潮之巅》、《数学之美》的作者,博主现在的博文偏更多介绍作者新书动态。

刘知远THU 新浪微博 作者曾经翻译的《机器学习那些事》值得翻来覆去的研读,每一次阅读收获可能都不一样

北京大学人工智能实验室 新浪微博 该实验室官方微博,有14万粉丝

李沐M 新浪微博 为百度职员,导师为现在机器学习界大牛,今年一篇《博士这五年:流水账、总结感悟》让人感叹原来研究生可以念得这么充实

Physcal大魔导书 机器学习、深度学习研究日常博客,有不少随笔和研究教程,适合一遍学习一遍copy代码实现,作者介绍了不少相关库,比如Caffe

“机器学习”是什么 【“机器学习”是什么?】John Platt是微软研究院杰出科学家,17年来他一直在机器学习领域耕耘。近年来机器学习变得炙手可热,Platt和同事们遂决定开设博客,向公众介绍机器学习的研究进展。机器学习是什么,被应用在哪里?来看Platt的这篇博文

UFLDL-斯坦福大学Andrew Ng教授“Deep Learning”教程 介绍:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。

Understanding Convolutions 这是一篇介绍图像卷积运算的文章,讲的已经算比较详细的了

Awesome Machine Learning 一个超级完整的机器学习开源库总结

An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples 通过图形可视化地介绍机器学习的理论很具体运用,适合入门。

Math ∩ Programming 一个关于数学和编程知识的主页

i am trask 该主页拥有大量神经网络、深度学习的干货贴,很多都附带python代码,可以拿来直接运行。

explain my data 作者文章不多,但都是干货,文章都是作者实际研究的成果整理,涉及python性能提升、GPU训练神经网络、scikit机器学习、Spark分布式编程框架

Statistical Modeling, Causal Inference, and Social Science - 一个关于统计建模,因果推理和社会科学的博客,博文偏方法论

Simply Statistics 一个数据科学、统计学的博客,博客内容比较务实,经常更新

Home page of Evan Miller 作者是Evan统计工具的创造者,主页是作者的一些博文和evan文档介绍

Overkill Analytics 数据竞赛、数据科学的一个主页

Peter K. G. Williams 作者是哈佛天文学专业博士后。也对科学研究的基础设施感兴趣,专注于优雅,有根据的数据分析,可视化和通信工具。

Blog 博文按年度分类,主要是机器学习、python学习。机器学习包含了文本分析、神经网络、线性判别分析、主成分分析等。

Home - colah’s blog 作者是神经网络、深度学习的行家,对广义神经网络、循环神经网络、卷积神经网络进行了可视化的讲解,特别直观易懂

This Number Crunching Life 关于行为学预测的一个主页,里面有不少社会行为学领域预测的例子

Sebastian Raschka’s Website

作者是Mlxtend(机器学习扩展的开发人员,一个用于日常数据科学任务的有用工具的Python库

DogDogFish 博主在搜索引擎有一定的研究,博文也是相关方面的

The Etz-Files 博主是贝叶斯统计学派支持者,从事领域为心理学,其博文也是围绕贝叶斯统计展开,

Publishable Stuff 主页有贝叶斯数据分析的系列视频,简单直观易理解,适合研究贝叶斯的初学者

Explore Probability with Count Bayesie 从名字可以看出,这是一个关于贝叶斯统计的学习专栏,比较全面。

No Free Hunch Kaggle数据竞赛的官方博客,介绍数据竞赛的新闻和资讯

danvk.org 作者是一个软件工程师,崇尚计算机技术来解决问题。目前在人行道实验室,以前在Hammerlab和Google。主页有多个开发项目。

Machine Learning (Theory) 这是一个资源比较丰富的机器学习专栏,文章覆盖多个领域。

Blog 作者花了很多来维护主页,主要是关于数据可视化和机器学习的案例,这些案例比较有趣和实用,比如《如何通过眼球运动进行活跃分类图像分类》、《在有限的预算下计算最佳公路旅行》等

Data School 数据学院,里面有很多机器学习、数据分析的视频。

http://allendowney.blogspot.ca/ 这是一个数据分析的博客,博文例子也是比较有趣,比如《在社交媒体帖子的回应中是否有季节性?》《药物使用与抑郁之间的联系》、《大多数恐怖主义是本地的吗?》

Healthy Algorithms 主页内容比较杂,包括计算机知识、算法理论、数据科学

Pete Warden’s blog 关于TensorFlow运用的一个博客,博文都是干货,比如《什么是GPU?》、《如何用TensorFlow量化神经网络?》、《在微控制器上运行TensorFlow》

http://mrtz.org/blog/ 数据分析和机器学习的一个博客,每年作者发布的微博不是很多,但都是个人研究所得。

欢迎补充。
文中提供的网页链接,均来自于网络,如有问题,请站内告知。

原创出品,转载请先获得作者BigQuant人工智能量化投资平台同意!

猜你喜欢

转载自blog.csdn.net/bigquant/article/details/85339617