良いプログラマハイブ保存形式のビッグデータ学習パス

  優れたプログラマの保存形式ハイブ、ハイブストレージ形式のビッグデータ学習パスは、通常は3です:テキストファイル、sequencefile、のrcfile、オーク 、 カスタム設定hive.default.fileformat = TextFileの、デフォルトの保存形式は次のとおりです。テキストファイルテキストファイル:プレーンテキストストレージ、圧縮なし。低クエリ効率。
1.sequencefile:
ハイブが提供するバイナリシーケンスファイルの保存、自然な圧縮。
sequeceFileとは、データをロードするために、負荷のrcfileの方法を使用することはできません。あなたは、インサートに挿入使用する必要があり
、デフォルトの支払い圧縮、セグメンテーション、使いやすいを書き、そして速く問い合わせます。sequencefileと圧縮プロパティを一緒に使用することができます。
SEQ1は、(作成しない存在する場合、表
ID int型、
名前文字列

「\ T」形式により終了行区切られたフィールドを
「N- \」によって終了行
SequenceFileとして格納されたが

###のロードデータ・エラー・モードの
負荷データをローカルINPATH「/ホーム/ユーザーをSEQ1 INTO「テーブル;
###データが正しくロード
表SEQ1。INSERT INTO
SELECT USER1から
;
2.rcfile:
rcfileのランクは、検索効率を向上させる、より遅い書き込みデータう格納形式内部保存しようと、同じブロックの近傍のデータの行と列を圧縮混合してもよいです。trueに圧縮モードとgzcodeC非常に良いではない()= SETのmapred.output.compressionの結合特性; SET mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodecは、
###のrcfileテーブルを作成:
作成しますテーブルではないがRC1(存在する場合、
IDはint、
名前の文字列

「\ T」で終了しフォーマット区切られたフィールド行]
のrcfileとして格納し

表の作成でない場合には、RC2(EXISTS
ID int型、
名前の文字列

「\ T」で終了しフォーマット区切られたフィールド行]
ストアドをrcfile AS
;
###データのロード・エラー・モード
負荷データのローカルINPATH '/ホーム/テーブルRC1へのユーザー';
データ###正しくセットされている
表RC2 INSERT INTO
SELECT
USER1から

3.ストレージカスタム:
データ:seqydメタデータ・ファイル:base64エンコード後のaGVsbG8saGl2ZQ == aGVsbG8sd29ybGQ = aGVsbG8saGFkb29w seqydファイルコンテンツ、データをデコード:
##こんにちは、ハイブ
##こんにちは、世界
##こんにちは、Hadoopのは、
表を作成します。 CuS(STR列)
として記憶
のInputFormat 'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextOutputFormat';
LOAD LOCAL INPATH DATA「/表CUS INTO /お客さまの自宅、
通常、最高の効率defaultCodec +のrcfileで使用

おすすめ

転載: blog.51cto.com/14256902/2424908
おすすめ