2020寒假(1)

假期的前段时间对于上学期的大数据稍微做了总结,对可视化工具echarts参照b站学习了几节。

接下来的假期将学习spark

今天将spark安装完成,并且在大学生mooc上将其spark的一章视频学习完。其分为6小节。

Spark概述,spark生态系统,spark运行架构,spark sqlspark的部署和应用方式,spark编程实践。

 成功安装spark

  1. Spark是基于内存计算的大数据并行计算框架,所以相比于基于磁盘计算的hadoop计算框架具有低延迟,运行速度快的优点。
  2. Spark生态系统包含了spark core(提供内存计算,)、spark sql(提供交互式查询分析)、spark streaming(提供流计算功能)、MLLib(提供机器学习算法库的组件)和Graphx(提供图计算)等组件。

 

 3.运行架构

 

spark运行流程:

 

 Spark采用Executor的优点

①利用多线程来执行具体的任务,减少任务的启动开销

②利用BlockManager存储模块减少IO开销

4.spark sql:hive兼容层面仅依赖HiveQL解析、Hive元数据。

接下来准备每天进行spark实验

猜你喜欢

转载自www.cnblogs.com/zjl-0217/p/12231339.html