HIVE存储格式ORC、PARQUET对比 - 代码天地

HIVE存储格式ORC、PARQUET对比

其他 2019-11-06 23:17:27 阅读次数: 0

　　hive有三种默认的存储格式，TEXT、ORC、PARQUET。TEXT是默认的格式，ORC、PARQUET是列存储格式，占用空间和查询效率是不同的，专门测试过后记录一下。

一：建表语句差别

create table if not exists text(
a bigint
) partitioned by (dt string)
row format delimited fields terminated by '\001'
location '/hdfs/text/';

create table if not exists orc(
a bigint)
partitioned by (dt string)
row format delimited fields terminated by '\001'
stored as orc
location '/hdfs/orc/';

create table if not exists parquet(
a bigint)
partitioned by (dt string)
row format delimited fields terminated by '\001'
stored as parquet
location '/hdfs/parquet/';

其实就是stored as 后面跟的不一样

二：HDFS存储对比

parquet	orc	text
709M	275M	1G
687M	249M	1G
647M	265M	1G

三：查询时间对比

parquet	orc	text
36.451	26.133	42.574
38.425	29.353	41.673
36.647	27.825	43.938

四：文件如何生成

val sparkSession = SparkSession.builder().master("local").appName("pushFunnelV3").getOrCreate()
val javasc = new JavaSparkContext(sparkSession.sparkContext)
val nameRDD = javasc.parallelize(util.Arrays.asList("{'name':'zhangsan','age':'18'}", "{'name':'lisi','age':'19'}")).rdd;
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).csv("/data/aa")
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).orc("/data/bb")
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).parquet("/data/cc")

猜你喜欢

转载自www.cnblogs.com/wuxiaolong4/p/11809291.html

HIVE存储格式ORC、PARQUET对比

Parquet与ORC：高性能列式存储格式

Parquet与ORC：高性能列式存储格式（转）

hive表的存储格式; ORC格式的使用

Hive 数据存储格式 orc格式

Hive使用ORC格式存储离线表

大数据：Hive - ORC 文件存储格式

Hive:ORC File Format存储格式详解

Hive - ORC 文件存储格式【转】

Hive-ORC文件存储格式

Hive的几种常见压缩格式（ORC，Parquet，Sequencefile，RCfile，Avro）的读写查询性能测试

Hive存储格式对比

hive 存储格式对比

将Hive数据库存储格式转换为orc

ORC 文件存储格式

ORC文件存储格式

hive存储的文件格式对比

Parquet列式存储格式

Parquet 列式存储格式

Hadoop列式存储引擎Parquet/ORC和snappy压缩

Apache开源列式存储引擎Parquet和ORC比较

Hive 导入 parquet 格式数据

【Hive十四】Hive读写Parquet格式的数据

Parquet列式存储格式笔记

列式存储格式之Parquet

hive 创建表时，orc格式并压缩

Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

pandas 各种存储格式速度对比：CSV、hdf5、SQL、pickle、feather、parquet

sparksql读取parquet格式hive表的配置

Hive压缩存储（以Parquet为例）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)