HIVE 索引

メカニズムと原則
- 目的は、検索ハイブテーブル指定した列をスピードアップすることです
- インデックスがない場合には、いくつかのファイルのみロードし、プロセス、その後、クエリの指定されたカラムに通して、クエリを実行するときにハイブは、テーブル全体または全体の地区をロードして、すべてのデータに対処する必要がありますが、指定された列にインデックスがあり、
- 従来のリレーショナルデータベースと同様に、インデックスがクエリの速度を向上させる、それがインデックスを作成するために追加のリソースを消費します、同時に増加し、インデックスを格納するためのより多くのディスク容量が必要です
- ハイブインデックスは、実際に、HDFSファイルパスオフセット値データファイルの値に対応するテーブル列のインデックス値を格納するインデックス・テーブル（ハイブ物理テーブル）、あります
- 列インデックスのフィルタリング条件に応じて、インデックステーブルを照会するために第1のMRジョブを介して、カラムを介してクエリ索引を実行し、ファイルディレクトリを照会するときハイブHDFSは、インデックス内の列に対応する値をオフセットし、HDFSにデータを出力します。入力として、元のファイルを介してクエリジョブを選別するために、この文書に基づいて、ファイル、および

利点
- 資源の浪費と全表スキャンを回避するために、
- あなたは、クエリの速度でグループを含む文をスピードアップすることができます

短所
- 面倒なプロセスを使用します
- 仕事に必要な追加のスキャンインデックス・テーブル
- これは、自動的にテーブルにデータの変更がある場合は、手動でインデックステーブルを更新する必要が、更新されません。

おすすめ