sparksql parquet 分区推断Partition Discovery - 代码天地

sparksql parquet 分区推断Partition Discovery

其他 2019-02-15 20:31:22 阅读次数: 0

网上找的大部分资料都很旧,最后翻了下文档只找到了说明

大概意思是1.6之后如果想要使用分区推断就要设置数据源的basePath,因此代码如下

java

 1 public class ParitionInfer {
 2     private static SparkConf conf = new SparkConf().setAppName("partitioninfer");
 3     private static JavaSparkContext jsc = new JavaSparkContext(conf);
 4     private static SparkSession session = new SparkSession(jsc.sc());
 5 
 6     public static void main(String[] args) {
 7 
 8         // 加载数据源
 9         Dataset<Row> dataset = session.read().option("basePath", "hdfs://hadoop002:9000/spark_sql/users/")
10                 .parquet("hdfs://hadoop002:9000/spark_sql/users/gender=male/country=us/users.parquet");
11 
12         dataset.printSchema();
13         dataset.show();
14 
15         session.stop();
16         jsc.close();
17     }
18 }

(注意basePath与实际的parquet文件的路径,basePath是分区推断列之前的路径)

scala

 1 object PartitionInfer {
 2   def main(args: Array[String]): Unit = {
 3     val conf = new SparkConf().setAppName("partitioninfer").setMaster("local")
 4     val sc = new SparkContext(conf)
 5     val sqlContext = new SQLContext(sc)
 6 
 7     val df = sqlContext.read.option("basePath", "f:/").parquet("f:/gender=male/country=us/users.parquet")
 8 
 9     df.printSchema()
10     df.show()
11   }
12 }

scala的版本用的本地路径,测试发现依然可以实现分区推断

猜你喜欢

转载自www.cnblogs.com/tele-share/p/10385670.html

sparksql parquet 分区推断Partition Discovery

sparksql parquet 合并元数据

sparksql读parquet表执行报错

sparksql读取parquet格式hive表的配置

SparkSql如何读取parquet文件数据

spark sql — Partition Discovery

学习笔记 --- Spark SparkSQL下Parquet中PushDown的实现

SparkSQL：Parquet数据源之合并元数据

Parquet

39、Parquet数据源之自动分区推断&合并元数据

Sqoop 同步Parquet partition Hive表

SparkSQL动态分区报错

SparkSQL分区OutOfMemory

Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

SparkSQL创建RDD：<5>读取parquet文件创建DataFrame【Java，Scala纯代码】

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

Spark06-SparkSQL初级(聚合，Parquet,JSON,JDBC,Hive表)

【SparkSQL】转载选择 Parquet作为DF默认类型外部数据源的原因

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

sparksql

sparkSQL中partition by和group by区别及使用

用sqoop导出hive parquet 分区表到mysql

sparksql 操作impala分区表

关于Parquet

Parquet格式

Parquet原理

Parquet 笔记

Apache Parquet

Discovery Scanning

service discovery

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)