Hive中数据压缩（企业优化）

二、配置mapreduce和hive中使用snappy压缩

将snappy解压，将Lib下的native复制到hadoop下的lib

1、实际就是对mapreduce过程中数据进行压缩

2、hadoop支持的压缩格式

3、在mapreduce中设置压缩

4、在hive中设置压缩

5、数据文件格式

数据存储
* 按行存储数据：TEXTFILE
* 按列存储数据: RCFILE ORC（存储列数较多的表） PARQUET(常用)

6、几种存储格式压缩比较

6.1、创建Text表

    create table page_views(
   track_time string,
   url string,
   session_id string,
   referer string,
   ip string,
   end_user_id string,
   city_id string
    )
  ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE ;

加载数据到表中 load data local inpath '/home/beifeng/opt/datas/page_views.data' into table page_views ;

6.2、创建ORC表

create table page_views_orc(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS orc ;

加载数据到orc表 insert into table page_views_orc select * from page_views ;

6.3、创建parquet表

create table page_views_parquet(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS PARQUET ;

加载数据到parquet表 insert into table page_views_parquet select * from page_views ;

查看三种存储格式的表的大小 dfs -du -h /user/hive/warehouse/page_views/ ; 相同数据量orc格式占内存最小

在实际项目开发中数据存储格式一般用orcfile格式和qarquet格式

数据压缩格式一般用snappy格式

7、创建一张orc存储格式表，并用snappy压缩。默认的压缩格式为zlib

create table page_views_orc_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS orc tblproperties ("orc.compress"="SNAPPY");

8、Hive企业使用优化

8.1、使用 Limit 、where 、*、不走mapreduce

8.2、大表拆分-创建子表：创建表时使用As select

8.3、外部表和分区表结合使用

            CREATE EXTERNAL TABLE [IF NOT EXISTS] [db_name.]table_name
            [(col_name data_type [COMMENT col_comment], ...)]
            [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[ROW FORMAT row_format]

8.4、数据：存储格式和数据压缩，在6中已讲

8.5、将8.2、8.3、8.4结合起来创建一张表，该表为一张表的子表，用snappy压缩，表格式为parquet

            set parquet.compression=SNAPPY ;
            create table page_views_par_snappy
            ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
            STORED AS parquet

AS select * from page_views ;

8.6、hive高级优化——join优化Join优化官网面试常问

数据倾斜

Common/Shuffle/Reduce Join

    连接发生的阶段，发生在 Reduce Task
    大表对大表
    每个表的数据都是从文件中读取的