目录
4、使用transformations类算子进行各种各样的数据转换
一、Spark粗略的运行流程
如下图:
Driver:进程 ;Worker:进程;RAM:运行内存;Input Data:要计算的数据
每个task处理128M的数据量
二、代码流程
1、创建一个SparkConf
val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount").setMaster("local[2]")
1、设置Application名称(在web ui显示)
2、可设置Application运行所需要的资源情况
3、设置Spark的运行模式 local standalone yarn mesos
2、创建一个上下文对象SparkContext
val sc = new SparkContext(conf)
创建SparkContext需要用到spark的配置对象
SparkContext是通往集群的唯一通道
3、创建一个RDD
4、使用transformations类算子进行各种各样的数据转换
5、使用Action类算子触发执行
6、关闭上下文对象
分布式文件系统(File system)--加载RDD
transformations延迟执行--针对RDD的操作
——返回值是RDD
——transformations是某一类算子(函数)
Action触发执行
——action也是一类算子(函数)
——返回值都不是RDD类型
如果你的算子的返回值是RDD类型,那么这个算子就是transformations算子,否则就是Action类算子