python读取hdfs上的parquet文件 - 代码天地

python读取hdfs上的parquet文件

其他 2018-12-04 10:43:31 阅读次数: 0

在使用python做大数据和机器学习处理过程中，首先需要读取hdfs数据，对于常用格式数据一般比较容易读取，parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以)：

1、安装anaconda环境。

2、安装hdfs3。

conda install hdfs3

3、安装fastparquet。

conda install fastparquet

4、安装python-snappy。

conda install python-snappy

如果是无网环境，需要把依赖包下载下来，配置 .condarc 文件，从指定包或者内网服务器安装。

namenode mode:

from hdfs3 import HDFileSystem

from fastparquet import ParquetFile

hdfs = HDFileSystem(host='172.16.6.32', port=8020)
sc = hdfs.open

pf = ParquetFile(filename, open_with=sc)

df = pf.to_pandas()

HA mode:

from hdfs3 import HDFileSystem
from fastparquet import ParquetFile

host = "nameservice1"
conf = {
"dfs.nameservices":"nameservice1",
......

}

hdfs = HDFileSystem(host = host, pars = conf)

......

返回pandas的DataFrame类型。

猜你喜欢

转载自blog.csdn.net/haveanybody/article/details/79928203

python读取hdfs上的parquet文件

parquet文件读取原理

Hadoop Parquet File 文件的读取

python spark中parquet文件写到hdfs，同时避免太多的小文件（block小文件合并）

读取hdfs上指定文件中的内容

在spark udf中读取hdfs上的文件

java 读取hdfs上的文件内容

impala+hdfs+parquet格式文件

scala读取HDFS上的文件，每次读取一行

Flink读取kafka数据并以parquet格式写入HDFS

StreamingFileSink 读取 Kafka 数据写入 HDFS（Parquet格式）

spark-shell读取parquet文件

SparkSql如何读取parquet文件数据

python如何读取parquet文件中的每一行每一列内容

Spark Filter算子在Parquet文件上的下推

flink读取hdfs上多路径的文件

【Hadoop】IDEA上读取虚拟机上的hdfs的文件

记录Java读取hdfs上的文件全过程

hive创建外部表语句，hdfs的文件类型为parquet

剖析HDFS文件的读取

HDFS读取文件详解

HDFS读取文件的流程

python读取hdfs数据

Spark读取parquet文件的切分逻辑

hdfs深入：07、hdfs的文件的读取过程

spark 读取parquet

pandas读取parquet报错

DataX 从HDFS文件系统上读取数据到FTP文件服务器【举例介绍】

在Eclipse中从HDFS读取文件

HDFS-文件读取API

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)