Spark实战(1) 配置AWS EMR 和Zeppelin Notebook - 代码天地

Spark实战(1) 配置AWS EMR 和Zeppelin Notebook

编程语言 2018-11-03 08:50:50 阅读次数: 0

SparkContext和SparkSession的区别，如何取用？

SparkContext:

在Spark 2.0.0之前使用
通过资源管理器例如YARN来连接集群
需要传入SparkConf来创建SparkContext对象
如果要使用SQL，HIVE或者Streaming的API, 需要创建单独的Context

  val conf = new SparkConf()
  .setAppName(“RetailDataAnalysis”)
  .setMaster(“spark://master:7077”)
  .set(“spark.executor.memory”, “2g”)
  
  val sc = new SparkContext(conf)

SparkSession:

出现在Spark 2.0.0之后, 推荐使用
除了能够调用Spark的全部功能之外，允许DataFrame和Dataset APIs
对于SQL, HIVE和Streaming，不需要创建单独的Context

可以在初始化session之后配置config

 # Creating Spark session:
 val spark = SparkSession
 			.builder
 			.appName("WorldBankIndex")
 			.getOrCreate()

  # Configuring properties:
  spark.conf.set("spark.sql.shuffle.partitions", 6)
  spark.conf.set("spark.executor.memory", "2g")

配置AWS EMR

# 1. Open aws console
# 2. Access the EMR
# 3. Create cluser
# 4. Go to andvanced options
# 5. Release: emr-5.11.1
# 6. Hadoop: 2.7.3
# 7. Zeppelin: 0.7.3
# 8. Spark: 2.2.1
# 9. Choose spot price to save budget
# 10. Create you key pair, download and chmod 400 it
# 11. Add inbound Security Group: 22 for ssh, 8890 for Zeppelin

创建Zeppelin Notebook

# 1. access master node public dns:8890
# 2. Create new note
# 3. Default Interpreter: spark
%pyspark # 4. import the pyspark package
# after importing package, you could run python code in zeppelin
for i in [1,2,3]:
	print(i)
	
# the spark context is already set
sc

# the spark session is already set
spark

# read file fro aws s3
df = spark.read.csv("s3n://MyaccessKey:SecretKey@bucketname/file.csv")

猜你喜欢

转载自blog.csdn.net/ZenG_xiangt/article/details/83587862

Spark实战(1) 配置AWS EMR 和Zeppelin Notebook

AWS EMR中HDFS服务配置参数

aws emr学习入口

aws emr服务重启

AWS EMR集群销毁流程

emr-spark

AWS EMR集群的Master节点重启流程

在AWS上配置深度学习主机 AWS运行 Jupyter notebook

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

配置spark的jupyter notebook kernel -- spark magic

EMR Spark Runtime Filter性能优化

zeppelin（齐柏林）的配置和使用

EMR 配置纪录（不断更新）

亚马逊aws emr hadoop集群调度工具azkaban安装

AWS DAS认证考点整理（EMR QuickSight Lakeformation等）

基于Apache Zeppelin Notebook和R的交互式数据科学

NoteBook学习（一）-------- Zeppelin VS Jupyter

jupter-notebook简单配置和介绍

jupyter notebook里配置pytorch和tensorflow

为Spark集群配置jupyter notebook的Spark kernel

zeppelin 0.8环境和spark2.2问题

Spark和Zeppelin探索movie-lens数据

Spark/Hadoop/Zeppelin Upgrade(1)

使用Relational Cache加速EMR Spark数据分析

使用EMR Spark Relational Cache跨集群同步数据

EMR Spark Relational Cache的执行计划重写

通过EMR Spark Streaming实时读取Tablestore数据

Spark on k8s 在阿里云 EMR 的优化实践

1. Apache Zeppelin0.9.0 CDH6.2.0 下安装记录和spark示例运行

jupyter notebook和pycharm中配置pytorch环境，及jupyter notebook内核创建

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)