ハイブ建てテーブルサポートされているファイルの種類と圧縮形式

MapReduceのデータ圧縮
データ圧縮ハイブ
ファイル形式がサポートされハイブ
ハイブログ解析、様々な圧縮の比較を

A:MapReduceの圧縮

  • MapReduceの圧縮は、主にシャッフルステージに最適化されています。
    シャッフル側

--partition(パーティション)
-ソート(並び替え)
-などの組み合わせ(マージ)
-圧縮(圧縮)
-グループ(グループ)
のMapReduceでの最適化のシャッフル、本質的にディスクおよびネットワークIO IOの問題を解決します。
Clusterwareのファイル転送プロセスを減らします。
2:ハイブ圧縮:
一般的な圧縮形式のハイブの圧縮と解凍の必要CPUの、:
BZIP2、GZIP、LZO、てきぱきと他の
使用CDHのデフォルトの圧縮がてきぱきです

圧縮率:BZIP2> gzipの> LZO bzip2のほとんどのストレージスペースの保存。
注:sanppyない最高の圧縮比

解凍スピード:LZO> gzipの> bzip2のLZO解凍速度が最速です。
注:最速sanppy圧縮率の追求
圧縮と解凍の必要CPU損失が比較的大きいです。

クラスタポイント:CPUに負荷(通常、ネットワーク・コンピューティングのタイプ)
のHadoopディスクおよびネットワークIO IO集中、デュアルNICカード結合。
3:Hadoopのコマンドチェックの圧縮であれば
ビン/ Hadoopがchecknative
3.1がサポートするように取り付けられた圧縮:
タール- zxvf 2.5.0 -C /ホーム/ Hadoopの/襄陽/ Hadoopの/ libに/ネイティブネイティブ-snappy.tar.gz
3.2コマンド検出は、 :
ビン/ Hadoopのchecknative
3.3 MapReduceのサポート圧縮:
コードネーム:
zlibの:org.apache.hadoop.io.compress.DefaultCodec
GZIP:org.apache.hadoop.io.compress.GzipCodec
gzip2:org.apache.hadoop.io.compress .Bzip2Codec
LZO:org.apache.hadoop.io.compress.LzoCodec
LZ4:org.apache.hadoop.io.compress.Lz4Codec
スナッピー:org.apache.hadoop.io.compress.SnappyCodec
3.4のMapReduceジョブが一時的な支援に圧縮の2種類が実行されます方法:
1.コマンド実行時間を実行します。
= trueに-Dmapreduce.map.output.compress
-Dmapreduce.map.output.compress.codec = org.apache.hadoop.io.compress.DefaultCodec
など:
binに/共有糸JAR / Hadoopの/のMapReduce / HadoopのMapReduceの--例- 2.5.0-cdh5.3.6.jar WORDCOUNT -Dmapreduce.map.output.compress =真-Dmapreduce.map.output.compress.codec = org.apache.hadoop.io.compress.DefaultCodec /input/dept.txt / OUTPUT1
あなたは、ビンの前で時間を追加することができ、時間がランニングをチェックします

ジョブタスクをテストします:

  1. テスト実行ジョブの合計時間
  2. 周波数の圧縮、圧縮ファイルのサイズを確認してください。
  3. 設定ファイルを変更します。
    変更はmapred-site.xmlファイル


    mapreduce.map.output.compress



    mapreduce.map.output.compress.codec
    org.apache.hadoop.io.compress.DefaultCodec

変更が完了したら、その上に再起動サービスが
。4ハイブサポート圧縮
4.1一時パラメータ効果取るように変更し
、すべてのパラメータを参照してください--->ハイブ>セットを
開いた中間圧縮を-セットhive.exec.compress.intermediateが真=>ハイブ
>セットを=コードネームmapred.map.output.compression.codec
> SET = hive.exec.compress.output trueに
> = BLOCK SETのmapred.map.output.compression.type / RECORD
、それに対応するパラメータを増大させるハイブ-site.xml内永久
4.2:ハイブサポートされているファイルの種類:
4.2.1ストア行と列差分ストレージ
従来のリレーショナル・データベースとは異なり、データベース列ストア、データ列がもたらさテーブルの行に記憶されている、ことによって重要な利点でありますその一つは、列によって定義され、データベース全体を自動的に索引付けされた選択規則クエリによるものです。
  各フィールドのストレージコラムストアを収集したデータによると、クエリが時間内に一部のフィールドだけをとり、大幅にデータの量を減らすことができ、データの集約ストレージ欄を読んで、より良いこのストアのデザインを収集するために容易になるだろう圧縮/伸張アルゴリズム。
image_1ak7j9l59fq1k819ek15eeqq9.png-173KB

4.2.2ハイブサポートされているファイルの種類:
変更デフォルトのファイルシリーズハイブパラメータ:
SET hive.default.fileformat =オーク

TextFileの:デフォルトのタイプ、ラインメモリ
のrcfile:ライン・ブロック、メモリの各列
アブロ:バイナリ
ORCののrcfile:アップグレード版、デフォルトではてきぱき形式をサポートzlibを、あるサポートしていません
寄木
4.2.3 ORC形式(ハイブ/サメを/スパークサポート)
image_1ak7jnb7p1ko3128h2u9b0kqulm.png-108.9kB

使用法:
表住所(作成
名の文字列、
ストリート文字、
市のString、
州ダブル、
ZIP int型
)ストアドAS ORCのtblproperties( "orc.compress" = "NONE")--->圧縮アルゴリズムの指定
行形式区切られたフィールドがにより終了します'\ T';
4.2.4 PARQUETフォーマット(さえずり+ Clouderaのオープン、ハイブ、スパーク、ドリル、インパラ、
豚他の支持体)
image_1ak7k27pbsvu1lmo1hp6tus9e013.png-124.4kB

使用法:
表住所(作成
名の文字列、
ストリート文字、
市のString、
州ダブル、
ZIP int型
AS寄木ストアドを)--->テキストの種類
行形式は、「\で終わるフィールド区切りトンを」;
5:ハイブログ解析を、各種の比較は、圧縮された
上記構成でテーブルを作成するハイブ5.1:
5.1.1テキストファイルタイプ:
テーブルpage_views_textfileを作成します(
track_time文字列、
URL文字列は、
文字列をセッション_
文字列、REFERE
IP文字列は、
文字列をend_user_id
文字列CITY_ID

行区切られたフィールドは、フォーマットによって終了しました" \ T '
ASテキストファイルSTORED、ファイルの種類--->指定されたテーブル
image_1ak7u3id314bq57q11rhp60dhh9.png-17.9kB

ローディングテーブルにデータ
をロードINPATHローカルデータ「/home/hadoop/page_views.data」INTO表page_views_textfile;
image_1ak7u5tbjqql1mfv1ic61ffquqam.png 12.5キロバイトIN-

5.1.2オーク类型:
テーブルpage_views_orcを作成する(
track_time文字列、
URL文字列、
session_idの文字列、
REFERE文字列、
IP列、
end_user_id文字列、
CITY_ID列

行形式は、各フィールドを区切り'\ t'のことで終了
オークとして保存され、
image_1ak7ulou44mhq501efc1jktboa13.png-17.5kB

插入数据:
テーブルへの挿入がpage_views_textfileから選択* page_views_orc。
image_1ak7urdk31sf97971edt1it81qtm1g.png-54.7kB
5.1.3寄木細工类型
テーブルpage_views_parquet(作成
track_time文字列、
URL文字列、
session_idの文字列、
REFERE文字列、
IP列、
end_user_id文字列、
CITY_ID列を

行形式は、フィールドが'\ t'のことで終了区切り
寄木細工として保存され、
image_1ak7uu3rmgd5umk5sleh1t2a1t.png-17.1kB

插入数据:
テーブルへの挿入がpage_views_textfileから選択* page_views_parquet。
image_1ak7uuuuh1e31iktc1g1q971pg22a.png-62.1kB

6:比較:
6.1ファイルサイズ統計は
(襄陽)をハイブ> DFS -du -h /user/hive/warehouse/yangyang.db/page_views_textfile。

ハイブ(襄陽)> DFS -du -h /user/hive/warehouse/yangyang.db/page_views_orc。

ハイブ(襄陽)> DFS -du -h /user/hive/warehouse/yangyang.db/page_views_parquet。
image_1ak7vb3havvabfa1mdsien1g282n.png-21.2kB

上記の表から分かるように、最小はORCに発生します。
6.2試験比較に時間を見つける:
ハイブ(襄陽)> SELECT COUNT(SESSION_ID)page_views_textfileから、
ハイブ(襄陽)> SELECT COUNT(SESSION_ID)page_views_orcから。

ハイブ(襄陽)> SELECT COUNT(SESSION_ID)page_views_parquetから。
6.3テキストファイル文件类型:
image_1ak800moc1ov711mhkk11nk44eo3u.png-7.2kBの
image_1ak801ugb1n2v1mhk3f1qshems4b.png、6.8kB

6.4オークのファイルタイプ:
image_1ak8056dcd8o1ei83vp9hupo84o.png-22.9キロバイト
image_1ak807ni71fi3dpm1ccb18an155755.png-6.7キロバイト

6.5寄木細工类型:
image_1ak8091ilmeqing1qunurc5to5i.png-15.9kBの
image_1ak80a3441aj99hih2u7n6fd25v.png、6.6kB

七ハイブ创建表与指定压缩:
7.1オーク+てきぱきと格式:
テーブルpage_views_orc_snappyを作成する(
track_time文字列、
URL文字列、
session_idの文字列、
REFERE文字列、
IP列、
end_user_id文字列、
CITY_ID列

列の書式は、フィールドが'\ t'のことで終了区切り
STORED ASのオークTBLPROPERTIES( "orc.compression" = "スナッピー");
image_1ak81oqnp1sd01nq01tj6htdnh06c.png-21KB

插入数据:
テーブルへの挿入がpage_views_textfileから選択* page_views_orc_snappy。
image_1ak81sl3k1pa16un267186g1uu96p.png-34.8kB

7.2寄木細工+てきぱき格式:
セットparquet.compression =スナッピー。
真のセットhive.exec.compress.output =;
テーブルpage_views_parquet_snappy(作成
track_time文字列、
URL文字列、
session_idの文字列、
REFERE文字列、
IP列、
end_user_id文字列、
CITY_ID列を

行形式がにより終了フィールドを区切り「\ t」の
寄木細工として格納され、
image_1ak826m0hu73195t97i4qrj680.png-24KB

插入数据:
テーブルへの挿入がpage_views_textfileから選択* page_views_parquet_snappy。
image_1ak8277pv12vi16unbag10q01sfm8d.png-62.9kB

7.3の比較テスト:
7.3.1ファイルサイズの比較:
ハイブ(襄陽)> DFS -du -h /user/hive/warehouse/yangyang.db/page_views_orc_snappy。

ハイブ(襄陽)> DFS -du -h /user/hive/warehouse/yangyang.db/page_views_parquent_snappy。
image_1ak82jdklbniq9bhei129b1hde8q.png-15.4kB

7.3.2コントラストクエリ:
ハイブpage_views_orc_snappyから(襄陽)> SELECT COUNT(SESSION_ID)。

ハイブ(襄陽)> SELECT COUNT(SESSION_ID)page_views_parquet_snappyから。
image_1ak832dfdg2v1vvm15umjmd4us97.png-58.7kB

image_1ak833gls106i1hjg1sg1ljn1ud39k.png-58.7kB

おすすめ

転載: www.cnblogs.com/kukudetent/p/12168699.html