HIVE 저장 형식 ORC 바닥 마루 비교

  하이브는 세 가지 기본 저장 형식, 텍스트, ORC, 나무 마루가있다. TEXT는 기본 형식은, ORC, 나무 마루가 열 형식, 공간에 저장되며 쿼리 효율이 특별히 테스트 레코드 뒤에 다른입니다.

A : 테이블 문 차이의 건설

되지 텍스트 (존재하는 경우 테이블을 작성
BIGINT
의해 구획)을 (DT 문자열)
행 형식 구분 '\ 001'종료 필드
위치 '/ HDFS / 텍스트 /';

되지 오크 (존재하는 경우 테이블을 작성
BIGINT)
에 의해 구획을 (DT 문자열)
행 형식은 '\ 001'종료 필드를 구분
오크 저장
'/ HDFS / 오크 /'위치;

하지 마루 (존재하는 경우 테이블을 작성
BIGINT)
(DT 문자열)에 의해 구획
종료 행 형식 구분 필드가 '\ 001'
마루 저장
위치 '/ HDFS / 마루 /';

 

실제로 뒤에 저장되어와 동일하지 않습니다

2 : HDFS 스토리지 비교

쪽매 세공 오크 본문
709M 275M 1G
687M 249M 1G
647M 265 1G

 

세 : 질의 시간 비교

쪽매 세공 오크 본문
36.451 26.133 42.574
38.425 29.353 41.673
36.647 27.825 43.938

네 : 세대를 제출하는 방법

브로 sparkSession SparkSession.builder = (). 마스터 ( "로컬"). APPNAME ( "pushFunnelV3"). getOrCreate ()
브로 javasc = 새로운 JavaSparkContext (sparkSession.sparkContext)
브로 nameRDD = javasc.parallelize (util.Arrays.asList ( " { '이름': 'zhangsan', '나이': '18'} ","{ '이름': '리시', '나이': '19'} ")) RDD;.
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .CSV ( "/ 데이터 / AA")
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .orc ( "/ 데이터 / BB ')
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .parquet ( "/ 데이터 / CC")

추천

출처www.cnblogs.com/wuxiaolong4/p/11809291.html