データ マイニング (7.1) -- データ ウェアハウス

目次

序章

1. データベース

1 はじめに

2. データベース管理システム (DBMS)

2. データウェアハウス

データウェアハウスの特徴

データウェアハウスの役割

データ ウェアハウスと DBMS の比較

データウェアハウスとデータベースを分離する


序章

データ ウェアハウジングの歴史は 1960 年代に遡ります。当時、コンピューター分野の主な作業は、マスター ファイル上で実行される単一のアプリケーションを作成することでした。これらのアプリケーションは、一般に初期のプログラミングを使用したレポート処理とプログラムによって特徴付けられていました。 Fortran や COBOL などの言語を書き込みます。メイン ファイルは安価な磁気テープに保存されているため、順次アクセスしかできないという欠点があります。1970 年代までに、コンピューター技術の発展に伴い、データを管理し、アクセス効率を向上させるデータベース管理システム (DBMS) が登場し始めました。
1975 年、Sperry Univac は、現代のデータ ウェアハウス テクノロジーの先駆けである情報センターを構築するために設計された世界初のプラットフォームである 4GL を含むデータベース管理およびレポート システムである MAPPER を発売しました。1980 年代までに、パーソナル コンピューター (PC) や第 4 世代プログラミング言語 (4GL) などのより新しいテクノロジーの登場により、データ ウェアハウスの概念が出現し始めました。

1. データベース

1 はじめに

データベースはデータ処理の必要性により生成されます。たとえば、1960 年代後半、米国は戦争の必要に応じてあらゆる種類の情報を収集し、コンピューターに保存しましたが、これがデータベースの起源です。コンピュータ技術の発展に伴い、データベースはファイルシステム段階からデータベース段階、そして高度なデータベース段階へと発展しました。現在、データベースは、分散データベース、オブジェクト指向データベース、ネットワークデータベースなど、実用的なアプリケーション、コンピュータ技術、ネットワーク技術において広く使用されています。

データ: データベースに保存されている基本的なオブジェクト、物事を記述するために使用される記号レコード

データベース: データを構造化された方法で保存するファイル システム

データベースはテーブルで構成され、テーブルはレコードで構成され、レコードはフィールドで構成されます。

①:ドメイン

②:記録する

③:データ

2. データベース管理システム (DBMS)

ユーザーがデータベースを定義、作成、保守できるようにし、データベースへの制御されたアクセスを提供するソフトウェア システム。

例:DB2、Oracle、MS SQL Server、MySQL、MS Access

DBMS の重要な機能:

データの保存、取得 (SQL)、および更新 (作成/挿入、読み取り、更新、削除)

トランザクションのサポート。特定のトランザクションに対してすべての更新が完了したかどうかを確認します。

複数のユーザーが同時にデータベースを更新するときにデータベースが正しく更新されることを保証する同時実行制御サービス

2. データウェアハウス

データ ウェアハウスは、企業が戦略的意思決定を行うために必要な情報を保存するための意思決定支援データ モデルの物理的な実装として使用できる、意味的に一貫したウェアハウスです。データ ウェアハウスは、構造化されたクエリまたはアドホックなクエリ、分析レポート、意思決定をサポートするために、複数の異種ソースからのデータを統合することによって構築された建物と見なされます。

データウェアハウスの特徴

データ ウェアハウスは、経営者の意思決定プロセスをサポートする、主題指向で統合された、時間とともに変化する不揮発性のデータのコレクションです。

主題指向

(1) 顧客、製品、販売などの重要な話題や話題に関するもの。
(2) データの日常的な操作やトランザクション処理ではなく、意思決定者のデータ モデリングと分析に焦点を当てます。
(3) 意思決定支援プロセスに役に立たないデータを除外して、特定のトピックに関する簡潔な意見を提供します。

統合された

(1) データ ウェアハウスの確立は、リレーショナル データベース、データ ファイル、オンライン トランザクション レコードなど、複数の異なる異種データ ソースの統合と統合を通じて行われます。
(2) データ ウェアハウスの構築中に、データ クリーニングおよびデータ統合技術が適用されます。その目的は、異なるデータ ソースを統合する際に、命名規則、コーディング構造、属性測定の観点からデータの一貫性を確保することです。さらに、データがデータ ウェアハウスに置かれるとき、データは特定の変換を受けることがよくあります。

時間とともに変化する

(1) 時間レベルでは、データ ウェアハウス内のデータは運用データベースのデータよりも明らかに長く、データ ウェアハウスが履歴データに基づいているのに対し、運用データベースのデータは多くの場合現在のデータを格納していることがわかります。角度はデータを提供します。たとえば、データ ウェアハウスに保存されているデータは 5 ~ 10 年間のデータですが、運用データベースに保存されているデータは現在の期間のデータです。
(2) データ ウェアハウスでは、キー構造には明示的または暗黙的に時間要素が含まれています。対照的に、運用データベースでは、キー構造には必ずしも時間要素が含まれるわけではありません。

不揮発性

(1) データ ウェアハウスは物理的にデータを個別に保存しており、これらのデータは運用データベースから取得されますが、最も極端な場合には、データ ウェアハウス内のデータが破損した場合でも、運用データベースのデータ情報を介して復元することができます。
(2) データウェアハウスでは、データの更新などの一般的な操作は発生しません。さらに、データ ウェアハウスはトランザクション処理、リカバリ、同時実行制御メカニズムなどの操作を必要としません。データ ウェアハウスにおけるデータ操作には、データの初期ロードとデータへのアクセスの 2 種類のみがあります。

データウェアハウスの役割

顧客重視の向上

  • 購入パターン、購入の好み

生産戦略の微調整

  • 製品の再構成とポートフォリオの管理

事業運営を分析し、利益の源泉を見つける

顧客関係を管理する

データ ウェアハウスと DBMS の比較

OLTP (On-Line Transaction Processing、オンライン トランザクション処理): 従来のリレーショナル DBMS の主要なタスク。日常業務: 購買、在庫、財務、製造、給与計算、登録、会計など。

OLAP (On-Line Analytical Processing、オンライン分析処理): データ ウェアハウス システムの主なタスク、データ分析と意思決定

OLTP と OLAP の主な違い

(1) 処理対象:

  • OLTP は顧客指向であり、トランザクション処理やクエリ処理などの操作を顧客に提供します。
  • OLAP は市場指向であり、データ アナリストにデータ分析サポートを提供します。

(2) データ内容:

  • OLTP で処理されるデータは現在の詳細データです。
  • OLAP で処理されるデータは履歴データであり、マージおよび統合されます。

(3) データベース設計:

  • OLTP システムは、ER 図とアプリケーション指向のデータ設計のデータ モデルである「エンティティ関係」モデルを採用しています。
  • OLAP はスター スキーマとサブジェクト指向のデータベース設計を採用する傾向があります。

(4) ビュー:

  • OLTP は、履歴データ情報ではなく、現在のローカル データに焦点を当てます。
  • OLAP が注目するデータは、さまざまな進化とさまざまなデータ ソースから統合されたデータ情報です。

(5) アクセスモード:

  • OLTP のアクセス モードには、データの更新やクエリなどの操作が含まれており、これには並列制御および回復メカニズムが必要です。
  • OLAP のデータ アクセス モードは主に読み取り専用操作であり、これらの読み取り操作のほとんどは比較的複雑なクエリ操作です。

データウェアハウスとデータベースを分離する

両方のシステムのパフォーマンスを向上させる

  • DBMS - OLTP (クエリ、同時実行制御、リカバリ)
  • データ ウェアハウス - OLAP (複雑な OLAP クエリ)

異なる機能と異なるデータ

  • 意思決定支援には履歴データが必要ですが、ビジネス データベースには保存されません

おすすめ

転載: blog.csdn.net/weixin_53197693/article/details/131161202