书单 | 做数据分析不得不看的书有哪些?

学习这种实践性很强的技术,只看书其实是一件信噪比非常低的事情。在 DataCastle 的另一篇文章中,详细给出了一个快速入门数据分析师的学习路径,如果你有兴趣,可以看看:如何快速成为数据分析师

当然,读书也有读书的学习方法,推荐的书不多,但保证每一本都值得看,更重要的是,给你一条合理的学习路径,并配合一些另外的学习资源,你能对核心的知识、实践的技巧有更好的理解。(以下推荐的书并非都是必读,也并非适合每一个人,你处于什么阶段,未来发展的方向是什么,需要自己来决定,对每本书详细说明是希望能购帮助你更好地取舍。)


一、数据分析入门

1.深入浅出数据分析 (豆瓣)

把这本书放在第一顺序,是因为它真的很简单,但是能够让你对数据分析的一些基本概念有大致的了解。即便是你毫无数据分析经验,一两天也足够读完整本书了。这本书的实操性并不强,所以也不建议你去跟着去实践,了解作者传达出来的数据分析基本思想和原则就ok了,这对你建立宏观的视野,和接下来的学习很有帮助。

另外,书中提到的一些案例,比如提升化妆品销量、分析星巴克销量、生产线最优解、网站AB test、竞品分析、薪资预测等等,看起来很简单,但其实都是工作最常见的一些分析场景。这对数据思维的养成,非常有帮助。

个人觉得书中最有用的一些点:

  • 统计学概念在数据分析中的作用:比如方差、标准差、相关系数、均方根误差等;
  • 集中数据分析的基本方法:假设检验、回归分析、误差分析等;
  • 统计图形分析:散点图、直方图等来探索数据中隐藏的规律;
  • 数据库以及数据整理。

这本书很难让你掌握数据分析技术,过一遍即可。但它会大大降低你之后学习的一些阻力,因为接下来推荐的这本,真的很厉害,但也有一定难度。


2. 利用Python进行数据分析 (豆瓣)

《利用Python进行数据分析》应该是最经典的数据分析书之一了,作者是 pandas 库的作者 Wes McKinney。所以这本书对于 pandas 的理解,应该是非常深刻的,而利用梳理介绍的 pandas、numpy、matplotlib 等库,应对一般的数据分析,完全足够了。

书中应该重点掌握的一些点:

  • IPython Notebook 的使用:最适合小白的代码编写环境,非常容易上手;
  • 科学计算库 Numpy:数组和矢量计算、学会利用数组进行数据处理;
  • 数据处理及分析工具 pandas:数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化;
  • 可视化工具 matplotlib:用这个库,基本的数据可视化问题皆可以解决了。

看上去是不是很简单,这本书就是教会你如何开始使用 Python 进行数据分析,当然首推的就是 pandas,不仅可以做数据的预处理,还能够做基本的数据分析和可视化。这个库一定是你开始入门的时候需要重点学习的,其次用 Numpy 进行数组的计算、利用 matplotlib 进行可视化的描述性分析,也是同步需要掌握的东西。

但是,这个部分光看书是远远不够的,你可以尽量去找一些可以练手的数据集,来实际操作和调用这些库的功能,确保熟练数据分析中最常用的函数和模块。如果纠结去哪找练手的数据,推荐UCI经典数据集

关于 pandas、Numpy、matplotlib 网上应该可以搜索到很多有用的资料、教程,可以看一看别人的使用技巧、应用场景,并通过联系转化成自己的经验。

因为 Python 库的更新迭代非常快,这本书里的一些内容其实已经“过时”了,这里也非常建议你去查看一些官方的文档,基本上你需要的都能查到。

pandas 官方教程文档

Numpy 官方教程文档

matplotlib 官方推荐教程文档

另外,在进行一些数据处理、数据分析的时候,你可能需要去了解一些更细节的 Python 的用法,这里就不推荐书了,因为你没必要去系统地学,按照这个菜鸟教程看看或者查询相关的用法就OK了。

Python3 教程 | 菜鸟教程


3. 深入浅出统计学 (豆瓣)

非常非常基础的统计书,适合任何一个没有基础的小白,文科生也能看懂。有人说这本书简直太简单了,但是对于数据分析来说,需要用到的恰好是这些最简单的东西。比如基本的统计量,基本上每个分析项目中都会用到。比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。

所以强烈推荐这本,其他的比较深度的书,并不建议在入门的阶段去啃,一方面是很多难以理解,二是即便你花大力气学习了,入门的阶段你也不怎么能在实践中使用。当然多学一些是没有坏处的,但你需要知道在什么时候学习哪些东西性价比最高。或者你自我感觉良好,誓要学最难的,从入门到放弃,得不偿失。

总结起来,需要重点了解的统计学知识如下:

  • 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等;
  • 概率分布:几何分布、二项分布、泊松分布、正态分布等;
  • 总体和样本:了解基本概念,抽样的概念;
  • 置信区间与假设检验:如何进行验证分析;
  • 相关性与回归分析:一般数据分析的基本模型。

这本书非常的简单,但是基本的数据分析的一些方法都有了,你需要做的,是利用之前学过的 Python 的一些库(pandas、Numpy、matplotlib)来实现这些数据分析的方法、实现基本的可视化来进行图形化的分析。


4. 商务与经济统计学 (豆瓣)

当然,如果在后续的数据分析中,你觉得统计学的知识掌握得不是扎实,或者你非常重视分析结果中蕴含的统计学规律和原理,那么你可以更深入地了解概率统计的知识,推荐这本《商务与经济统计学》,当然吴喜之的《统计学》也非常好,选择一本即可,不必纠结。

相比《深入浅出统计学》强调易于理解,本书更加强调统计学的思想养成,所以适合有一些经验之后进行提高。很多知识你前期学习可能并不好理解其本质,而当你实际做一些数据分析项目之后,再来看这些本质的思想和原理,会得到更多的启发:哦,原来如此!

不说重点了,整本书都是重点。如果你想跟其他的分析师拉开差距,那么你就需要在有基础之后或者遇到瓶颈的时候再来看看这些经典的思想,没准能给你不少的启发。


5. MySQL必知必会 (豆瓣)

这本书把SQL写的非常简单,没办法,SQL确实也很简单。其实 pandas 就已可以实现很多数据管理的工作,而了解 SQL 的意义在于融入到实际的数据使用的场景。比如企业的数据,多是以数据库的形式存储起来的,那么如果你需要去调用你需要的那部分数据,那么 SQL 就是必须的技能。如果你在最开始就想用公司的数据来练习,那么你可以把这本书的阅读放到最前面。(当然,如果你不会遇到数据提取的问题,SQL这部分也可以暂时不管,对具体的数据分析没有影响,等到你真正需要用到SQL的时候再学习。)

MySQL 本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。

书中重点掌握以下几个点:

  • SELECT语句:让你能够去提取你需要的那部分数据;
  • DELETE和UPDATE:知道怎么实现数据的增、删、改;
  • 数据过滤:where、and、or、通配符等过滤方式;
  • 数据的汇总和分组、数据库连接:应对更加复杂的数据和相关联的数据;
  • 子查询:查询中的查询。

当然还是希望你去公司的数据库找一些数据来进行练习,如果不方便的话,也可以直接用上述 UCI数据集中的数据来进行实践。

如果遇到问题,可以去菜鸟教程查询相关操作。

MySQL 教程 | 菜鸟教程

好了,恭喜,你已经基本入门了。到此,你就完全可以去进行一个完整的数据分析项目了,如果你没有头绪,可以去找一些行业的分析报告来看看,找一找分析的思路。能够独立完成一些项目,通过数据分析能够得出一些深刻的结论,能够给人以可视化的形式将结果描述出来,能够基于历史数据对未来的一些情况进行预测,那么一般的数据分析岗位,完全可以胜任了。


6. 数据科学实战 (豆瓣)

这本书应该是数据分析和数据挖掘(机器学习)之间的桥梁。从探索性的数据分析开始,通过数据分析的思维,引出了机器学习的基本算法:回归分析、k近邻、k均值。接着通过不同的应场景分别介绍了最常见的机器学习算法,以及在真实场景中的应用。

对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑地过渡到机器学习和数据挖掘,这本书我认为是这方面做的最好的一本。

所以如果你在做一些探索性的分析遇到瓶颈之后,自然而然会进入数据挖掘和机器学习算法的坑,因为只有更高级的算法和模型,才能够支撑大规模的数据的预测。

下面列出一些书中有意思也比较有用的点:

  • 了解探索性数据分析,为更高级的需求打好基础;
  • 了解机器学习的基本算法,k近邻、k均值等;
  • 用朴素贝叶斯方法做垃圾邮件的过滤;
  • 线性回归和逻辑回归的分析方法;
  • 如何从数据中获取结论,从数据挖掘竞赛开始;
  • 构建自己的推荐系统;
  • 数据泄漏与模型评价,如何筛选模型。


二、R语言数据分析

有同学是准备用R来做数据分析,也推荐两本非常不错的书,用 Python 的同学可忽略。

1. R语言实战 (豆瓣)

如果你是要用R语言来做数据分析,那么读完《深入浅出数据分析》之后,就可以开始读这本书了,深入浅出,可操作性极强。从工具的安装,到具体分析方法在R语言中的实现,可以说是非常的详细,是一本非常值得读的书。

知识点就不罗列了,这是一本学习路径设计非常合理的书,按照作者的思路跟着全部实现一遍,那么基本的数据分析,也就没问题了。在学会R分析的技巧之后,再看看统计学的相关知识,简直起飞。


2. ggplot2:数据分析与图形艺术 (豆瓣)


ggplot2 是 R 中一个非常强大的可视化包,书中有大量的例子,也可以下载源代码。这本书将 ggplot2 的基本原理和操作讲解的非常清楚和系统,可以说 ggplot2 是目前最优秀的数据分析作图工具之一了。其作者Hadley Wickham是学医出身,但在R数据分析及可视化领域的影响力,也非同小可。

因为本书是 ggplot2 作者(同时也是R语言很多好用的包的作者)Hadley大神自己写的,主要讲的是ggplot2绘图的整体语法思想,思路清晰,墙裂推荐。本书的英文版已经出版到第二版了,方法也从原来第一版的qplot更新为ggplot,建议如果英文过了四六级的同学可以直接学习英文版的教材。

所以对于学习R语言数据分析的同学来说,ggplot2 一定是一个不能错过的工具。


三、细分领域业务分析

这个部分其实是针对具体的业务场景了,有一些细分领域的书籍,可以给你在具体方向的一些分析的技巧和经验,因为关注的指标、数据不同,所以分析的方法也不尽相同。

1.社交网站的数据挖掘与分析 (豆瓣)

书中介绍了很多社交网站的数据分析方法,如果你在参与社交产品的研发、运营,或者对社交网络的数据感兴趣,那么你可以看看。

书中涉及到 Twitter 等网站的分析会有一定的启发,但其中一些东西因为网站的更新可能不适用了,但是分析方法可以借鉴,你也可以尝试去分析国内的微博之类的社交网络。


2. 精益数据分析 (豆瓣)

书中主要讲到各种产品中用到的指标和模型,这是一本写给产品经理的书,其中并没有讲到具体的数据分析技术,涉及到的更多是数据驱动型产品的一些思路。

比如怎么将数据驱动的产品落地,怎么喂产品设计数据指标。哪些指标对于产品迭代优化更有效,如何依靠数据分析来驱动用户增长等等。


3. 数据挖掘与数据化运营实战 (豆瓣)


这是一本数据化运营的书,但相比上面一本,涉及到的技术层面的东西要多很多。比一般的数据分析更高级一些数据挖掘算法都有涉及,比如决策树、神经网络、支持向量机、关联规则挖掘等等。

觉得这本书更好的一点是,它介绍了一些数据分析和运营密切相关的一些模型,比如交易模型、风险模型、推荐模型,这些其实跟电商、风控、推荐系统的自动化运营密切相关。

另外还讨论数据挖掘项目的落地、协作、有效性评价等实战,这就上升到产品的大规模数据挖掘了。前期看这本书会觉得特别的枯燥,当你在遇到大规模的真实数据分析、挖掘工作的时候,来看看这本书,或许就能得到一些启发。


4. Python金融大数据分析 (豆瓣)

在互联网金融行业,或者向往这个方面发展的,可以看看这本,在金融分析方面,时间序列会用的比较多,也建议重点了解这一块。

同时需要去了解一些常见的金融数据分析模型,比如常见的估值框架、衍生品分析库等。

最后这几本书,不推荐在前期看,并不是没有帮助,而是在相应的领域你有一定的数据分析经验之后,再去看这些书,才能得到更大的收获。


如果你觉得看书实操性不强,而且效率比较低的话,正好DC学院也推出了一门数据分析的体系课。提取了目前数据分析类书中最有效的那部分信息,学习路径更加平滑,老师实时答疑。有兴趣可以看看:数据分析师(入门)-DC学院


猜你喜欢

转载自blog.csdn.net/DataCastle/article/details/78131818