8. Hiveシリーズの圧縮と保存

1. ZLIB 圧縮 ORC ストレージ メソッドを作成する
create table log_orc_zlib(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as orc
tblproperties("orc.compress"="ZLIB");
# 查看插入后数据
dfs -du -h /user/hive/warehouse/log_orc_zlib/ ;
2.78 M /user/hive/warehouse/log_orc_none/000000_0
2. SNAPPY 圧縮 ORC ストレージ メソッドを作成する
create table log_orc_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as orc
tblproperties("orc.compress"="SNAPPY");
# 查看插入后数据
dfs -du -h /user/hive/warehouse/log_orc_snappy/;
3.75 M /user/hive/warehouse/log_orc_snappy/000000_0
3. SNAPPY 圧縮寄木細工の保管方法を作成する
create table log_parquet_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as parquet
tblproperties("parquet.compression"="SNAPPY");
dfs -du -h /user/hive/warehouse/log_parquet_snappy/;
6.39 MB /user/hive/warehouse/ log_parquet_snappy /000000_0

4. 保存方法と圧縮の概要

実際のプロジェクト開発では、ハイブ テーブルのデータ ストレージ形式として orc または parquet が選択されるのが一般的です。圧縮方式は通常、snappy、lzo を選択します。

おすすめ

転載: blog.csdn.net/SJshenjian/article/details/131873442