- 入口点:
Spark2.0中所有的入口点都是SparkSession,只需要使用SparkSession.builder(),SparkConf、SparkContext和SQLContext都已经被封装在SparkSession当中。 - 执行单位:
Spark集群的执行单位是Application,一个Application中可以有多个job,setMaster是连接主节点,如果参数是”local[*]”,则在本地用单线程运行spark,如果是 local[4],则在本地用4核运行,而setAppName就是在web端显示应用名而已,它们说到底都调用了set()函数 - 运行模式:
1.local --在IDEA中开发spark程序要用local模式,本地模式,多用于测试
2.stanalone --spark自带的资源调度框架,spark任务可以依赖standalone调度资源
3.yarn --hadoop生态圈中资源调度框架,spark也可以基于yarn调度资源
4.mesos --资源调度框架 - SparkConf:
1.可以设置spark的运行模式
2.可以设置spark在webui中显示的application的名称
3.可以设置当前spark application 运行的资源(内存+core) - SparkContext:
通往集群的唯一通道是通往集群的唯一通道,通过sc.textFile 读取文件 - Spark 中 DataFrame的三种创建方式:
方法一,Spark中使用toDF函数创建DataFrame,导入隐式转换就可以将本地序列(seq), 数组或者RDD转为DataFrame
方法二,Spark中使用createDataFrame函数创建DataFrame,数据形态也可以是本地数组或者RDD
方法三,通过文件直接创建DataFrame
Spark2.0 概念
猜你喜欢
转载自blog.csdn.net/qq_41705639/article/details/87728244
今日推荐
周排行