关于SparkContext

1. SparkContext是spark功能的入口,代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量

2. 每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext

3. SparkConf包含了Spark集群配置的各种参数,对于一般简单应用,只需要传递下面两个参数:

集群URL:告诉Spark如何连接到集群上。比如“local”表示在本地运行,“local[4]”表示以4核在本地运行,“spark://master:7077”表示在spark独立集群上运行
应用名:设置将在spark Web UI中显示的应用程序的名称,可以帮助我们在集群管理器的用户界面中找到应用。

在Spark2.0之后,Spark Session也是Spark 的一个入口。从Spark 2.0.0开始,最好使用SparkSession,它提供了对sparkContext所具有的所有spark功能的访问。 此外,它还提供了用于处理DataFrame和DataSet的API

猜你喜欢

转载自blog.csdn.net/yuan1164345228/article/details/108185442