A:table文差の構築
テキスト(存在しない場合にテーブルを作成
BIGINT
(DT列)によって区画)を
行形式フィールドが「\ 001」によって終了区切り
位置「/ HDFS /テキスト/」。
ORC(存在しない場合は、テーブルを作成
BIGINT)は
(DT列)によって区画
行フォーマットフィールドが「\ 001」によって終了区切り
オークとして格納
位置「/ HDFS / ORC /」。
寄木細工(存在しない場合は、テーブルを作成
BIGINT)
(DT列)によって仕切らを
行形式は、フィールドが「\ 001」によって終了区切り
寄木として格納
位置「/ HDFS /寄木細工/」。
実際と同じではないの背後に保存されています
2:HDFSストレージの比較
寄木細工 | オーク | テキスト |
709M | 275M | 1G |
687M | 249M | 1G |
647M | 265M | 1G |
3:クエリ時間の比較
寄木細工 | オーク | テキスト |
36.451 | 26.133 | 42.574 |
38.425 | 29.353 | 41.673 |
36.647 | 27.825 | 43.938 |
4:世代を提出する方法
ヴァルsparkSession = SparkSession.builder()。マスター( "ローカル")。appNameは( "pushFunnelV3")。getOrCreate()
ヴァルjavasc =新しいJavaSparkContext(sparkSession.sparkContext)
ヴァルnameRDD = javasc.parallelize(util.Arrays.asList(」 { '名前': 'zhangsan'、 '年齢': '18'}」、 "{ '名前': 'リージ'、 '年齢': '19'}"))RDD;。
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).CSV( "/データ/ AA")
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).orc( "/データ/ BB ")
sparkSession.read.json(nameRDD).write.mode(SaveMode.Overwrite).parquet(" /データ/ CC」)