Pyspark获取hdfs上多个文件

业界资讯 2023-06-12 05:44:56 阅读次数: 0

（作者：陈玓玏）

开始还不太熟悉，想着这个需求可以一分为二：

我想直接读取所有文件并合并结果；
我想获取文件路径，然后再一个一个获取结果。

第一种，可以用
sc.textFile(path)，直接批量读取文件

第二种，我暂时没找到pyspark里的好方法，所以我直接用命令行+解析命令行结果的操作进行的。

命令行获取文件路径：

d = os.popen("hadoop fs -ls /user/log/ctm_api_logs | awk '{print $8}' ").read().split('\n')

解析命令行结果：

for j in d:
        print(j)
        df = spark.read.format('json').load(j)

第三种，pyspark可以直接读取一整个路径里所有的压缩文件，发现这个方法更好用，直接解析，因此没必要用textFile，也没必要把路径全部提取出来再解析，可以直接解析一整个文件夹：

df = spark.read.format('json').load('/user/log/ctm_api_logs')

猜你喜欢

转载自blog.csdn.net/weixin_39750084/article/details/109494534

Pyspark获取hdfs上多个文件

pyspark单词统计(python编写)文件在hdfs上

如何在pyspark里引用上传到hdfs上的文件

将hdfs上的多个文件内容定量缓存到redis

把hdfs上的多个目录下的文件合并为一个文件

pyspark程序从hdfs上读取数据求其TopN，并将结果存回hdfs

往HDFS 上写文件

删除hdfs上指定的文件

如何修改HDFS上的文件

spark读取HDFS多个文件配置

pyspark将本地数据转化为方便在hdfs上读取的分布式数据

pyspark 向HDFS存json

hdfs上小文件文件合并，

使用PySpark将ElasticSearch的数据写入第三方存储（hdfs、mysql、本地文件）

读取hdfs上指定文件中的内容

上传本地文件到hdfs上

下载hdfs上的指定文件到本地

python读取hdfs上的parquet文件

在spark udf中读取hdfs上的文件

将HDFS上的小文件进行归档

java 读取hdfs上的文件内容

清理hdfs上flink程序残留的文件

HDFS的API操作-获取文件列表信息

【python】pyspark读取获取文件、加载已存在的文件、读取csv文件修改列名

storm处理来自redis当中的数据,将处理完的结果保存到hbase当中将hdfs上的多个文件内容定量缓存到redis

Java 读取hdfs文件末尾多个字符

pyspark-hdfs数据操作函数介绍

修改hdfs上指定文件的文件名

Clion上运行多个cpp文件（内含多个main函数）

遍历多个 txt 文件进行获取值

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)