Spark2.0 概念

  1. 入口点:
    Spark2.0中所有的入口点都是SparkSession,只需要使用SparkSession.builder(),SparkConf、SparkContext和SQLContext都已经被封装在SparkSession当中。
  2. 执行单位:
    Spark集群的执行单位是Application,一个Application中可以有多个job,setMaster是连接主节点,如果参数是”local[*]”,则在本地用单线程运行spark,如果是 local[4],则在本地用4核运行,而setAppName就是在web端显示应用名而已,它们说到底都调用了set()函数
  3. 运行模式:
    1.local --在IDEA中开发spark程序要用local模式,本地模式,多用于测试
    2.stanalone --spark自带的资源调度框架,spark任务可以依赖standalone调度资源
    3.yarn --hadoop生态圈中资源调度框架,spark也可以基于yarn调度资源
    4.mesos --资源调度框架
  4. SparkConf:
    1.可以设置spark的运行模式
    2.可以设置spark在webui中显示的application的名称
    3.可以设置当前spark application 运行的资源(内存+core)
  5. SparkContext:
    通往集群的唯一通道是通往集群的唯一通道,通过sc.textFile 读取文件
  6. Spark 中 DataFrame的三种创建方式:
    方法一,Spark中使用toDF函数创建DataFrame,导入隐式转换就可以将本地序列(seq), 数组或者RDD转为DataFrame
    方法二,Spark中使用createDataFrame函数创建DataFrame,数据形态也可以是本地数组或者RDD
    方法三,通过文件直接创建DataFrame

猜你喜欢

转载自blog.csdn.net/qq_41705639/article/details/87728244