Spark shell交互

Spark带有交互式的Shell 可以作为即时数据分析接口,相对于Python Bash Windows Shell等,Spark Shell最大的特点是可以用来与分布式存储在许多机器的内存或磁盘上数据进行交互,并且处理过程的分发由Spark自动完成

Spark能够在工作节点上把数据读取到内存,所以分布式计算都可以在几秒内完成,即使探索性分析变得很适合Spark,Spark提供Python以及Scala增强版的Shell 支持与集群的连接

启动Spark-shell

对于语句 val line=sc.textFile("test.txt")     从本地文件读取一个RDD  

lines.count()   lines.first()则是RDD数据集的操作

每一个Spark应用都由一个驱动器程序 Driver Program来发起集群上的各种并行操作,驱动器程序包含Main过程,并且定义了集群上的分布式数据集,如上面例子的Spark-Shell就是一个驱动器程序

驱动器程序通过一个SparkContext对象来访问Spark 这个对象代表对计算集群的一个连接,Spark-shell启动时自动初始化一个SparkConetxt对象,即sc变量

要执行操作,驱动器程序一般管理多个执行器节点,使他们并行的完成计算任务

猜你喜欢

转载自blog.csdn.net/qq_33369979/article/details/88775673