HIVE記憶フォーマットORC、PARQUET比較

  ハイブは、3つのデフォルトの保存形式、TEXT、ORC、PARQUETを持っています。TEXTは、ORC、PARQUETをカラム形式で保存され、スペースとクエリ効率は特別にテスト記録、それの後に、異なっている、デフォルトのフォーマットです。

A:table文差の構築

テキスト(存在しない場合にテーブルを作成
BIGINT
(DT列)によって区画)を
行形式フィールドが「\ 001」によって終了区切り
位置「/ HDFS /テキスト/」。

ORC(存在しない場合は、テーブルを作成
BIGINT)は
(DT列)によって区画
行フォーマットフィールドが「\ 001」によって終了区切り
オークとして格納
位置「/ HDFS / ORC /」。

寄木細工(存在しない場合は、テーブルを作成
BIGINT)
(DT列)によって仕切らを
行形式は、フィールドが「\ 001」によって終了区切り
寄木として格納
位置「/ HDFS /寄木細工/」。

 

実際と同じではないの背後に保存されています

2:HDFSストレージの比較

寄木細工 オーク テキスト
709M 275M 1G
687M 249M 1G
647M 265M 1G

 

3:クエリ時間の比較

寄木細工 オーク テキスト
36.451 26.133 42.574
38.425 29.353 41.673
36.647 27.825 43.938

4:世代を提出する方法

ヴァルsparkSession = SparkSession.builder()。マスター( "ローカル")。appNameは( "pushFunnelV3")。getOrCreate()
ヴァルjavasc =新しいJavaSparkContext(sparkSession.sparkContext)
ヴァルnameRDD = javasc.parallelize(util.Arrays.asList(」 { '名前': 'zhangsan'、 '年齢': '18'}」、 "{ '名前': 'リージ'、 '年齢': '19'}"))RDD;。
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).CSV( "/データ/ AA")
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).orc( "/データ/ BB ")
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).parquet(" /データ/ CC」)

おすすめ

転載: www.cnblogs.com/wuxiaolong4/p/11809291.html