[DataAnalysis]数据分析和大数据入门推荐书单

应该是目前网上能搜到的最全和最靠谱的入门书单了,几乎零基础(懂一点高数就可以入门),而且基本上都是我看完的书,有一些我看过完全没用的比如head first SQL等就不列入在内了。算是了了一直想要汇总书单的一个念想。

一、概率论和数理统计基础

1、《茆诗松概率论和数理统计》前七章(大数据的基础:概率论和相关的数理统计)

1.1、《商务经济统计学》

茆诗松更偏向严谨的论断和课堂式的学习,比较适合正在学校的或者刚出学校的学生。如果想快速了解常用的商用概率论和数理统计知识的话,这本是比较不错的选择,该了解的概率论和数理统计知识都能在上面找到,甚至作为茆诗松的补充都绰绰有余。

2、线性代数(普通高校教材即可,能理解矩阵的运算、特征值等思想即可、作为工具书碰上了再翻阅)

二、工具类

1、SPSS

1.1、《应用多元统计分析》-朱建平

这本不仅介绍了常见的数据分析和数据挖掘方法的spss操作,比如判别分析、聚类分析、因子分析、相应分析、典型相关分析和多维标度法等。更重要的是介绍了各种方法的背后原理和计算公式。

2、R

2.1、《统计建模与R语言》《R in action》二选一,熟悉R语言的基础操作

2.2、《机器学习与R语言》 

以实例方式清楚地讲解了如何运用R语言进行常用的机器学习方法建模以及相应的调参,机器学习方法包括:近邻分析、朴素贝叶斯、决策树、线性回归、神经网络、支持向量机、关联规则、k均值聚类等。而且包括模型性能的评价和提高模型性能的方法等。

3、Python

Python作为未来一阶段内主流的语言,无论是作为爬虫、数据挖掘还是处理数据都是相当强大的工具。

3.1、《python编程-从入门到实践》

零基础的完美级入门教材,从基础语法到制作一个游戏再到web应用程序,perfect。

3.2、《利用python进行数据分析》 

日常数据处理和熟悉python不同数据分析的包

3.3、《机器学习实战》

用python作机器学习,会比R能实现的功能更多

3.4、《从零开始学python网络爬虫》

爬虫是互联网分析必备技能

4、excel

不必专门买书了,常用的功能和函数即可。

常用的聚合函数、vlookup函数和数据透视表,养成良好的数据分析习惯。比如sheet1存放raw_data、sheet2存放加工数据和sheet存放可视化图表等。总之excel作为R/Python的补充还是相当有必要的。

5、SQL

5.1、计算机等级考试的二、三级

花一周半的时间看完并且通过即可,那两本书和真正的商业应用比较脱节,不过作为SQL的入门还是比较不错的,可以让你短时间内熟悉Sql的方方面面,经常有人买了SQL的入门书籍半年后还是只会写简单的"select * from table_name limit 1;"。

5.2、《HIVE编程指南》

基本上互联网公司用的都是hadoop等,有hadoop使用经验对于找到合适的数据分析实习还是有很大帮助的。

三、数据挖掘算法原理

1、《数据挖掘导论》

不仅有数据预处理的一些介绍,还包括常用的数据挖掘方法原理。

2、《机器学习》

大名鼎鼎的西瓜书。

3、《统计学习方法》

进阶书。

4、《统计学习基础 数据挖掘、推理与预测 》

*高阶书。

四、其他书籍,各取所需

1、《Web Analytics》 

网站分析,以数据驱动决策

2、《实用数据分析》

3、根据自己感兴趣的方向自己搜相关书籍或者网站

4、数据结构(相当重要但是我暂时还没看,所以放在四中,应该单独成一类)

猜你喜欢

转载自blog.csdn.net/tomocat/article/details/81145496
今日推荐