ハイブ関連
- メタストアとは何ですか?
- メタデータは、情報のデータベーステーブル、フィールド、および他のパーティションが含まれているメタデータです。役割:メタストアサービスクライアント接続、メタストアは、メタストアサービスと、メタデータを格納するためにMySQLデータベースを接続して行くには、より多くの同時クライアント接続のMySQLを達成することができます。
- メタストアの3つの構成:インライン(ダービー)、ローカルセルの記憶装置、リモート記憶元
- ハイブメタデータは、デフォルトのDerbyデータベース、このような記憶勧告などのMySQLリレーショナルデータベースに保存されています。
- [なぜ、リレーショナルデータベースに格納されているお勧めしますか?]:クライアントのみ接続を作成することができ、デフォルトのDerbyデータベースは同時にマルチクライアントアクセスで達成することはできません。本番環境には適していません。
- 差メタストアのインストールは何ですか?
- 組み込み:組み込みのDerbyデータベースのメタデータを保存するために、追加のメタストアサービスを使用します。一度だけ、クライアント接続を持っている、適した実験環境は、本番環境には適していません
- ローカルドルストア:ローカルメタデータを格納、同じプロセスで実行されているハイブメタストアサービスおよびサービスにMySQLをインストールしました。
- 異なるプロセスでハイブメタストアサービスとサービス:リモートセル記憶。
- 何が表および外部表管理されていますか?
- 管理表(内部テーブル)および外部表(外部表):ハイブのテーブルの2種類があります。
- 内部テーブル:ハイブデフォルトのテーブル・タイプは、データは、通常、内部テーブル/下/ユーザ/ルート・ウェアハウスに格納されます。
- 見るためにフォーマットされたテーブル名を記述する使用し、内部表または外部表であります
- あなたはHDFS上の実際のデータに保存されている内部テーブルを削除する場合も削除すること。
- 外部表:あなただけのメタデータを削除し、外部表を削除すると、ハイブ外のデータテーブルを使用するのに適した、データが実際に削除されません。
- 管理表および外部表を使用するとき
- 内部テーブルが作成された一時的な中間テーブルに適用されます
- 外部表のデータ共有マルチセクタ
-
ハイブ複合データ型
キー値:地図
StructEntryTable:異なるデータタイプのコレクション
配列:要素タイプの同じセット
UnionType:列の値の代表の選択されたタイプに属するすべてのデータを有していてもよいです -
メリットハイブパーティション何ですか
- クエリをスピードアップ
- クエリ操作を実行するときだけではなく、テーブル全体をスキャンするよりも、特定のサブディレクトリをスキャンしますWHERE句を使用して、サブディレクトリを作成するには、パーティションの列名を使用してください。またはクエリをスピードアップ
- パーティションおよびサブハイブバレルとの間の差
- 区:TABLE_NAME視野を記述するために使用されるテーブル構造の形態で存在するフィールドが存在するが、このフィールドは、実際のデータが格納されていない、唯一のパーティション(擬似列)を示します
- 部品のキット:データ分割操作の微細な粒子サイズ。実際の生産が少ないを使用しています。[列の数のハッシュ値を使用するように求めて、次にタブIを分割]
- ハイブどのように動的なパーティション
- 静的パーティション(明示的に)ロードデータがパーティション化列を指定します
- 動的分割は:ハイブは、パーティションを入力された値を決定、ハイブにデータをプッシュします。【hive.exec.dynamic.parition.mode = NOSTRICT動的分割を開始するために必要
- マップは、最適化手法に参加します
- 背中に大きなテーブルに参加[キャッシュされたテーブル、ストリーミングされたテーブルを選択し、必要な結合を実行します。表が間大きい方を決定するようにハイブは、最後の文のストリーミング用のテーブルを結合]
- ソート・マージ・バケット(SMB)地図は、[前提を使用:すべてのテーブルは、バケット(バケット)とに分配し、すでにソートされなければならない(ソート)]に参加
- バケットリストを作成する方法
- ハイブ機能特性を強制するために提供される部品のデフォルトのキットでは無効になって[hive.enforce.bucketing =真]を用いて特徴点をTUB
- どのようなファイル形式ハイブ
- テキストファイル形式:デフォルトフォーマットはデータを圧縮しない、大きなディスクオーバーヘッド。
- シーケンスファイルフォーマット:SFのサポートを提供するバイナリファイルHadoopのAPIです。使いやすく、圧縮可能分けることができます。
SFサポート3圧縮形式:NONE、RECORD、BLOCK、BLOCKは、圧縮をお勧めします。 - RCファイル形式:RCストレージは組み合わせのランクを格納する方法です。
- 寄木細工:列のデータ・ストレージ
- AVRO:アブロスキーマのデータのシリアライズ
- ORC:のrcfileは、複雑なデータ型をサポートするために最適化されています。
- 最適なファイルが何であるかハイブがギ
ORCを
- ORCは、ファイルメモリ行に設定され、セット内のデータの行がインラインで格納されます。カラム型のフォーマットは、このように、ストレージコストを削減し、圧縮のために採用されています。
- クエリ:クエリ指定された列の代わりに、行、列、レコードストレージ
- ORCの列には、インデックスベース、高いクエリの効率を作成します。
- ハイブパラメータの受け渡し
- 着信使用--hivevar
- ORDERBYと差SORTBY
- 順:グローバル順序が、唯一つのパーティション
- 並べ替え:ローカル、グローバル障害の間には順序関係、内部ため、パーティションおよびパーティションを分割します。
- ハイブとHBaseの違い
- ハイブサポートSQLクエリは、HBaseのはサポートされていません。
- ハイブは、録音レベルをサポートし、操作を削除しません。
- ハイブコンパートメント定義された数、HBaseのはNOSQLデータベースを定義しました。