ビッグデータトレーニング_W HBaseのXingjian設計の高度な使い方


  ビッグデータトレーニング _W HBaseのXingjian設計の高度な使い方

3405684-7b65016b519ff9ce.png
ビッグデータのトレーニング

  1.ホット問題

  地域のホットな問題を軽減、分散させるために書きます。

  例えば:歴史的取引注文、注文番号は、通常、タイムスタンプ+ランダムな4桁の数字によって生成され、注文番号は、逆可能。そのようなのrowKeyは、集中記憶領域を低減するために、逆の順序番号に格納されています。

  例:ユーザーのインターネットトラフィックは通常ののrowKeyのHBaseなどの電話番号を聞かせて、HBaseの中に保存されています。4桁の電話番号にランダムです。これは、ののrowKeyのHBaseなどの携帯電話番号の逆の順序を可能にします。

  考えます:

  単一領域を書いて、なぜ時に直接Xingjianとしてタイムスタンプに、ホット問題が発生しますか?

  回答:タイムスタンプは、ホットな問題の一つの領域につながる直接使用します。

  底部でのHBaseのrowKeyのHFILEは、キーと値のペアに格納された<K、V>のSortedMapにデータを記憶されています。時間が比較的集中している場合は、注文のrowKeyの領域が、保存されています。これは、領域に格納されるので、データ領域が増加すると、他の井戸のデータ領域は、データローディングが非常に遅くなります。領域分割までは解決することができます。

  2.デザインXingjian

  キーの公転と列:HBaseの中のキー構造の2つの基本タイプがあります。

  これらは両方とも意味のある情報、キーに対応するだけでなく、値が格納されています。

  列のキー:それは列のインデックスに移動し、家族の名前と修飾子の列が含まれます

  公転:リレーショナルデータベースの主キーに相当する論理装置によって得られた線は、すべての列を公転します

  論理ユーザの各行は、一緒に設定していないが、実際の時間は、別のファイル内の各列グループに格納され、異なる列内のセルのグループは、同じStoreFileに現れることはありません。同時に、HBaseのは記憶セルが空ではありません、ディスク上のファイルは、これらのセルの値を持っています。

  実ストレージ内の各セルは公転し、またキーの列が含まれているので、各セルは、個々に、テーブル内のその場所のキー情報が格納されます。

  細胞の異なるバージョンで、連続的な細胞として別々に格納されたセルは、高い順に、タイムスタンプ、そうデフォルト最新読み出しセルデータに基づいています。

  同じ列グループプレスは、細胞選別を公転するときに、列の行における複数のセルは、その後、タイムスタンプ順に並べ替え、同じセルの複数のバージョンが存在する鍵のストレージを、ソートしたときに

  上記の保存特性によると、それが保存されたクエリ指定された列の家族の情報の時に推奨されるファイルは、効果的、効率を改善し、クエリを減らすことができます

  ラインキーデザインの3キーポイント

  (1)ストレージ:列ファミリの下にあるすべてのセルは、ストレージ・ファイル(保管ファイル)に保存されているディスク上に、別の列ファミリーの細胞が同じストアファイルには表示されません。

  (2)NULLのHBaseは、テーブルに格納されていません。

  (3)各セルは、実際の公転に格納され、また、キーの列が含まれ、テーブル内のその位置に記憶されている、すなわち、個人情報です。

  同じ細胞のバージョン(4)複数のセルは、高い順に、タイムスタンプに応じて、単一の連続細胞として記憶されます。したがって、HFILEは時間を読んで、最新の値が読み取られます。

  です。KeyValueコンテンツ(5)細胞:公転、列グループ、修飾子列、タイムスタンプ値。です。KeyValueは、最初Xingjianソートし、ソートキー列に従って保存します。

  (6)です。KeyValueについて、スクリーニング効率は左から右に悪化:公転、列グループ、修飾子列、タイムスタンプ値。そのための重要な左に情報をフィルタリングしようとします。

ます。https://www.jianshu.com/p/799827187218で再現

おすすめ

転載: blog.csdn.net/weixin_34223655/article/details/91206696