データウェアハウスは名詞の説明を取得する必要があります - コードワールド

データウェアハウスは名詞の説明を取得する必要があります

その他 2020-04-13 14:44:06 訪問数: null

OLAPとOLTP

OLAP（オンライン分析プロセス）、オンライン分析および処理、データを多次元で分析し、ロールアップ、ドリルダウン、およびパースペクティブ分析操作を柔軟に提供できます。統合された意思決定情報を提示する方法は、主に意思決定支援システム、ビジネスインテリジェンス、またはデータウェアハウスで使用されます。その主な機能は、大規模なデータ分析と統計計算を容易にすることであり、意思決定のための参照とサポートを提供できます。多くの場合、OLAPは多次元分析およびキューブ計算に基づく分析に関連しています。
OLTP（オンライントランザクション処理）は、データの追加、削除、変更など、基本的な日常のトランザクション処理に重点を置いています。

BI

BI（ビジネスインテリジェンス）、つまりビジネスインテリジェンスとは、最新のデータウェアハウステクノロジー、オンライン分析テクノロジー、データマイニング、およびデータ分析のためのデータプレゼンテーションテクノロジーを使用してビジネス価値を達成することを指します。

次元

次元とは、データの視点を指し、これは通常、時間や場所などのデータレコードの属性です。

測る

メトリックは、データに基づいて計算された計算値であり、通常は合計売上高やさまざまなユーザー数などの数値です。
多くの場合、アナリストはいくつかのディメンションを組み合わせて、メトリック値の変化を見つけるためにメトリック値を確認する必要があります。SQLクエリでは、groupByの属性は通常ディメンションであり、計算値はメジャーです。
select time，location，sum（gmv）as gmv from sales group by time,location
上記のクエリでは、時間と場所はディメンションであり、合計（gmv）はメトリックです

立方体とキューブ

データモデルを指定すると、そのモデルのすべてのディメンションを組み合わせることができます。N次元の場合、組み合わせのすべての可能性が2 ^ N種類あります。ディメンションの組み合わせごとに、測定値が集計され、操作の結果がCuboidと呼ばれるマテリアライズドビューとして保存されます。
全体として結合されたすべての次元の立方体は、キューブと呼ばれます。
簡単に言うと、キューブは、ディメンション、つまりデータキューブによって集約された多くのマテリアライズドビューのコレクションです。これは、データ分析とインデックス作成に一般的に使用される手法であり、元のデータに多次元インデックスを確立できます。Cubeを介したデータの分析により、データクエリの効率が大幅に向上します。

ファクトテーブル

ファクトテーブル（ファクトテーブル）は、システムログ、販売レコードなどのファクトレコードを格納するテーブルを指します。ファクトテーブルのレコードは絶えず動的に増加しているため、通常、そのサイズは他のテーブルよりもはるかに大きくなります。

寸法表

ディメンションテーブルまたはディメンションテーブル（ルックアップテーブルとも呼ばれます）は、ファクトテーブルに対応するテーブルです。これは、ディメンションの属性値を保存し、ファクトテーブルに関連付けることができます。これは、ファクトと同等です。テーブルに頻繁に現れる属性の抽出と標準化は、テーブルで管理されます
一般的なディメンションテーブルは次のとおりです：日付テーブル（日付、週、月、四半期などに対応する属性を格納します）、場所テーブル（国、州/州、都市などの属性を含む）
ディメンションテーブルの利点：
ファクトテーブルのサイズを縮小
ファクトテーブルの多数のレコードを変更せずに、ディメンションの管理とメンテナンス、ディメンション属性の追加、削除、変更を容易にします。
ディメンションテーブルを複数のファクトテーブルに再利用して、作業の重複を減らすことができます。

スターモデル

スターモデルにはファクトテーブルと0個以上のディメンションテーブルがあり、ファクトテーブルとディメンションテーブルは主キーの外部キーによって関連付けられています。スターの周りの多くの星のように、ディメンションテーブル間には関係がありません。スターモデルです。
コンスタレーションモデルは、複数のファクトテーブルを含むより複雑なモデルであり、ディメンションテーブルは一般的であり、共有できます。
スターモデルは、最も単純で最も一般的に使用されるモデルです。
スターモデルのいくつかの次元のテーブルを標準化し、それらをより細かい次元テーブルに抽出してから、次元テーブルを関連付ける場合、このモデルはスノーフレークモデルと呼ばれます。

寸法表の設計

データの整合性を保つには、主キーが一意である必要があります。
ディメンションテーブルが小さいほど良いです。kylinはクエリのためにディメンションテーブルをメモリにロードするため、大きすぎるテーブルはディメンションテーブルとして適していないため、デフォルトのしきい値は300Mbです。
変更の頻度は低いです。Kylinは各ビルドでディメンションテーブルのスナップショットを再利用しようとします。ディメンションテーブルが頻繁に変更される場合、再利用は失敗し、その結果、ディメンションテーブルのスナップショットが作成されます。
ディメンションテーブルはHiveビュー（ビュー）ではないことが望ましいです。ディメンションテーブルがビューである場合のサポートは、Kylin 1.5.3で追加されましたが、ビューを毎回実体化する必要があるため、追加の時間オーバーヘッドが発生します。

ハイブテーブルパーティション

Hiveテーブルは複数のパーティションをサポートします（パーティション）
クエリでパーティション列の属性条件が指定されている場合、Hiveは特定のパーティション（つまり、ディレクトリ）を選択するため、完全なデータのスキャンが回避され、読み取りおよび書き込み操作によるクラスターへの負荷が軽減されます。
Hive > create table tb(id int,name string)
Hive > partitioned by (ds string) row format delimited fields terminated by 't' stored as textfile;
Hive > load data local inpath '/user/hadoop/data.txt' overwrite into tb partition (ds = '20190529');
Hive > select * from tb where ds = '20190529';

次元の基数

ディメンションのカーディナリティとは、データセットにディメンションが表示されるさまざまな値の数を指します。たとえば、「国」はディメンションです。200の異なる値がある場合、このディメンションのカーディナリティは200です。
通常、ディメンションのカーディナリティは数十から数万の範囲であり、「ユーザーID」などの個々のディメンションのカーディナリティは100万または1千万を超えます。カーディナリティが100万を超えるディメンションは、しばしば超高カーディナリティディメンションと呼ばれ、設計者の注意を引く必要があります。
キューブ内のすべてのディメンションのカーディナリティは、キューブの複雑さを反映している可能性があります。いくつかの超高カーディナリティディメンションがある場合、キューブの拡張の確率は非常に高くなります。
カーディナリティを計算する簡単な方法はcount distinct、hive Sqlでコマンド操作を実行することです。

デザインキューブ

Hiveテーブルのインポート
データモデルを作成する（ディメンションとメジャーの列を選択）

ディメンション列を選択する場合、ディメンションはファクトテーブルまたはディメンションテーブルから取得できます
メジャー列を選択する場合、メジャーはファクトテーブルからのみ取得できます

オリジナルの記事を4件公開・ Like1 ・訪問数196

プライベートの手紙の懸念

おすすめ

転載: blog.csdn.net/weixin_40983094/article/details/105487188

データウェアハウスは名詞の説明を取得する必要があります

ハイブの開発者は、データウェアハウスの設計の4つのレベルを知っている必要があります

Hiveデータウェアハウステーブルの構築にはORCまたはParquetを選択し、圧縮にはLZOまたはSnappyを選択する必要がありますか？

あなたは、ビッグデータ解析ソフトウェアを理解する必要があります

ハードウェアエンジニアは8ソフトウェア設計のスキルを知っておく必要があります

クアン・メディア・ハウス: ブロックチェーンメディアがニュースを公開するとき、価値観の問題を考慮する必要がありますか?

プログラマは、知識ディスクのハードコアを理解する必要があります

phpのバックグラウンドでシェルを使用するにはphpのパスを知る必要がありますので、次の記事でphpのパスを展開する方法を説明します。

ウェブサイトのHTTPS証明書は、それをインストールする必要がありますか？

Windows はこのハードウェアのデバイスドライバーを読み込むことができません。ドライバーが破損しているか欠落している可能性があります。(コード 39) オブジェクト名が見つかりませんでした。

プロダクトマネージャは、名詞を習得する必要があります

Javaソフトウェア開発は技術段階をマスターする必要があります - 2023年版

ドメイン名の登録情報は、ログアウトする必要がある場合は、[予約]ウェブサイトをシャットダウンし、その答えは、我々は、レコード情報をログオフするために覚えておく必要があります

Sourcetree はリモートウェアハウスに接続するためにログインする必要がありますが、問題を解決するためにログインできませんでした。

どのように私はそれがよりスケーラブルにするために私のHTMLフォームのデータベースレイアウトを変更する必要がありますか？

どのように戦争へ？Java開発者は***技術のウェブサイトの8種類をマスターする必要があります

MySQLのは、Linuxをダウンロードするには、公式ウェブサイト上でステップする必要があります

Androidアプリは毎回ウェルカムページをロードする必要があります

リアルタイムデータウェアハウスの構築質問 4: あなたは唖然としていますが、Jdbc の SQL コネクタが削除ステートメントを実行できることを知らず、あえてデータを Mysql にドロップするのですか?

[Hyper-Vの]ハードウェア支援による仮想化とデータ実行保護は、BIOS之で有効にする必要があります解决

ソフトウェアテスターは、自動化について何を知っている必要があります（翻訳）

MySQLはなります知っている必要があります - データを取得するために、

Amazon Cloud Technology のサーバーレスデータ分析は、Cheetah Mobile がよりコスト効率の高いデータウェアハウスを構築するのに役立ちます

ウェブは、の概念を知っている必要があります

ソフトウェア環境をインストールする必要がありますCentos7

リアルタイムのデータウェアハウスを構築する方法高速データ時代、MySQLのAnalyticDBはあなたを教えて

オープンソースソフトウェアに脆弱性がある場合、作成者は責任を負う必要がありますか? はい！

要素タイプ「web-app」の内容は「(アイコン?,表示名?,説明?...）」と一致する必要があります。

ソフトウェア会社は、サードパーティのソフトウェアテスト機関に見積もりを依頼する際に何を準備する必要がありますか?

私はGKEエンジンのAPIゲートウェイを展開する必要がありますか？

おすすめ

ライナスは「ドッグフードを食べる」ことに最も積極的！

Open Source Daily | Winamp プレーヤーがオープンソースになりつつある; 生成 AI の戦いは第 2 ラウンドにエスカレート; AI はバブルの初期段階に入った; Yongming を Alibaba Cloud に導入しますか?

ランキング

C言語プログラミングの最新の方法（第2回）第12章回答（自分で書いた回答、継続的に更新）

フレームワークの蜂のアップロードファイルに移動します

タイトルバーシリーズ：タイトルバーで遭遇したピットを非表示にする

Unityはゲームオブジェクトの様々な状況を取得します

N個の異なるボールは、Mどのように多くの種類のプログラムのと同じ袋に入れられますか？

オブジェクト指向のクラス、オブジェクト21

C ++オブジェクト指向プログラミングの研究ノート（8）

P3954 [NOIP2017 普及组] 成绩

分業のプロセス間通信 - ロック

ハッカーは通常、DOSコマンドウィンドウを使用します

アーカイブ

もっと

2024-05-20(5)

2024-05-19(0)

2024-05-18(30)

2024-05-17(6)

2024-05-16(24)

2024-05-15(5)

2024-05-14(9)

2024-05-13(8)

2024-05-12(27)

2024-05-11(31)