利用pyspark 读取 S3上数据 - 代码天地

利用pyspark 读取 S3上数据

编程语言 2018-11-04 17:10:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/hzy459176895/article/details/83616465

    spark = SparkSession.builder.master('local').appName("hxy_test_script").getOrCreate()
    sc = spark.sparkContext
    # s3环境
    sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", 你的s3ID-key)
    sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", 你的s3SECRET-key)
    sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "s3.cn-north-1.amazonaws.com.cn")

    rdd_data = sc.wholetextFile("s3a://要读的bucket_name/text/xxx.txt")  # 举例的，实际情况看自己路径
    print (rdd_data.take(10))

注意：以上只是代码层面，但是运行会有问题，因为spark读取s3文件，

必须要有aws涉及到的两个依赖包：aws-java-sdk-1.7.4.jar,hadoop-aws-2.7.3.jar

当项目里有这两个包了后，提交spark采用如下就可以了：

spark-submit --jars aws-java-sdk-1.7.4.jar,hadoop-aws-2.7.3.jar --master local test_extract_model_spark.py

ps：我的是本地spark，服务器上的：（我的举例如下）============================================

初始化改为：spark = SparkSession.builder.master('your-spark服务器-url').appName("hxy_test_script").getOrCreate()

提交改为：spark-submit -jars aws-java-sdk-1.7.4.jar,hadoop-aws-2.7.3.jar --master spark://192.168.31.10:7077 --executor-memory 40G --total-executor-cores 20 test_extract_model_spark.py

猜你喜欢

转载自blog.csdn.net/hzy459176895/article/details/83616465

利用pyspark 读取 S3上数据

pyspark读取Mysql数据

AWS S3 读取流的问题

pyspark 数据的读取与保存；pyspark的dataframe转化与展示

pyspark读取tidb数据库

大数据BigData之spark如何读取Amazon s3桶的数据？

利用python读取excel 数据

pyspark将本地数据转化为方便在hdfs上读取的分布式数据

利用 DynamoDB 和 S3 结合 gzip 压缩，最大化存储玩家数据

pyspark程序从hdfs上读取数据求其TopN，并将结果存回hdfs

利用Python读取外部数据文件

利用numpy读取mnist数据集

TensorFlow 利用Dataset读取和构建数据

8、利用xlrd读取excel数据

10、利用POI读取excel数据

利用Node读取和修改数据

利用Document读取和修改数据

利用 pandas库读取excel表格数据

python利用json读取疫情数据并打印

利用代码读取文本数据

大数据BigData之hive怎么样才能够直接读取amazon s3中的.gz文件数据呢？

AWS ec2使用IAM Role读取S3文件

Unity3D利用Webservice读取数据库

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库

pyspark 读取mysql 数据库，返回类型是true和false

python中，用pyspark读取Hbase数据，并转换为dataframe格式

如何使用PySpark来利用机器学习模型对流数据进行预测？

pyspark读取csv文件创建DataFrame

pyspark读取文件路径和文件

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)