A : 테이블 문 차이의 건설
되지 텍스트 (존재하는 경우 테이블을 작성
BIGINT
의해 구획)을 (DT 문자열)
행 형식 구분 '\ 001'종료 필드
위치 '/ HDFS / 텍스트 /';
되지 오크 (존재하는 경우 테이블을 작성
BIGINT)
에 의해 구획을 (DT 문자열)
행 형식은 '\ 001'종료 필드를 구분
오크 저장
'/ HDFS / 오크 /'위치;
하지 마루 (존재하는 경우 테이블을 작성
BIGINT)
(DT 문자열)에 의해 구획
종료 행 형식 구분 필드가 '\ 001'
마루 저장
위치 '/ HDFS / 마루 /';
실제로 뒤에 저장되어와 동일하지 않습니다
2 : HDFS 스토리지 비교
쪽매 세공 | 오크 | 본문 |
709M | 275M | 1G |
687M | 249M | 1G |
647M | 265 | 1G |
세 : 질의 시간 비교
쪽매 세공 | 오크 | 본문 |
36.451 | 26.133 | 42.574 |
38.425 | 29.353 | 41.673 |
36.647 | 27.825 | 43.938 |
네 : 세대를 제출하는 방법
브로 sparkSession SparkSession.builder = (). 마스터 ( "로컬"). APPNAME ( "pushFunnelV3"). getOrCreate ()
브로 javasc = 새로운 JavaSparkContext (sparkSession.sparkContext)
브로 nameRDD = javasc.parallelize (util.Arrays.asList ( " { '이름': 'zhangsan', '나이': '18'} ","{ '이름': '리시', '나이': '19'} ")) RDD;.
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .CSV ( "/ 데이터 / AA")
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .orc ( "/ 데이터 / BB ')
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .parquet ( "/ 데이터 / CC")