spark源码阅读——搭建和源码工程师一样的开发环境

阅读好的开源项目是最好的学习code的方法，在一个大型项目中会涉及到软件工程的方方面面。

项目代码作为最终的落地物质，其中必然会留下很多顶尖工程师、架构师、设计团队思考的痕迹；

如果从这个层面去看一个开源项目，其实至少包括三个方面：

1）这个项目是如何架构的，会用到哪些关键技术

2）实现这些设计是怎么落到code层面，利用了哪些技巧

3）利用了哪些好的库和管理的工具方法理念

学习一个开源项目可以从代码历史变更维度去追溯，项目是如何一步一步从雏形演进过来，有利于更深入去理解设计者的思路

从架构层面看开源项目：

1）包括哪些组件

2）利用了哪些外部库

3）搭建了哪些架子把组建创构起来

4）有哪些流程线让这个软件可以动起来

以上是最近阅读学习spark源码的一些思路总结；理解这个项目是为了解决什么问题，它是通过什么样解决思路去解决这个问题

当你认识清楚这个问题，知道它的难点在哪；站在解决问题的第一视角时思考该如何解决，结合你的直觉方案去思考，

去认识提出自己的解决方案和思路，然后看现成的解决方案，看别人的解决思路；刨根究底的结合源码看他们是怎么把想法

转成code，怎么去管理这个复杂项目工程时候，你会发现问题很难很复杂，但是你是可以去构着它的。

spark是为了解决数据量的计算问题，数据量大所以需要多机处理分而治之

1）多机之间如何进行数据消息传递——通过netty实现私有通讯协议

2）机器要能统一调度管理分配资源——clusterMaster集群管理、work资源上报、Application资源申请、excutor物理资源申请

3）具体计算怎么实现——内存分配管理、RDD各种操作、ShuffleStage、ResultMap、DAGSchedule构建、Taskchedule构建

4）兼容多种部署方式——deploy

5）这么多任务异常怎么处理、怎么监控——Metric、webUI、sparklistenBus

6）速度优化——kvStore、钨存储

7）更上层的应用支持——sparkSQL、Mlib、Stream、graphx、sparkPython、sparkR

这些都是静态的模块，具体的动线流程是如何，一定得要结合代码跑起来才可以更好去了解，所以我们需要去搭建spark开发工程师一样的开发环境。可以在和他们一样的环境下去开发改动这些代码，验证和测试我们的推测猜想。

spark是基于github做代码持续上线管理，通过mvn和sbt做项目依赖管理；应该是迭代开发持续上线模式，所以有很多的测试例子。我们读代码的思路：

1）看书、blog看前人是怎么讲的，方面我们对spark实现思路有个全局认识

2）结合别人源码注释按动线标注阅读代码，在心里有spark工作机理

3）结合代码的Test例子去解读每一模块是如何实现，活该如何用，推测当时实现思路

4）把某个代码模块拿出来，写自己的应用例子

5）在spark项目里面优化或者新增某些功能，然后重新编译上线，测试spark是否能够执行我们个性化定制功能

接下来就讲讲我们怎么去搭建和spark源码开发工程师一样的开发环境

A.下载源码：git clone https://github.com/apache/spark.git -b branch-2.4

B.编译源码：

./build/mvn -DskipTests clean package

C.打开IntelljIdea：File——openproject——mvn

D.等待依赖下载完，项目代码无报错标志

E.开始测试每个模块下的Test
F.可以把assembly/target/scala-2.11/jars里面编译好的jar包拿出来放到新工程中测试每个jar中实现的功能，看你是否了解

G.在源码中新增功能或者优化功能，重新编译spark，部署到线上看新功能是否能够执行

发布了27 篇原创文章 · 获赞 16 · 访问量 2万+

私信关注