記事ディレクトリ
序文
データ管理とは、データ リソースの管理を指します。DAMA (International Data Management Association) の定義によると、「企業データのライフサイクルに対処するための適切な構造、ポリシー、実践および手順の開発に特化したデータ リソース管理」これは高レベルで包括的な定義です。データ管理に直接関連する具体的な操作 (リレーショナル データベースの技術レベル管理など) とは限りません。
共通の内容
データ管理には、最も一般的に次のものが含まれます。
- データ分析
- データモデリング
- データベース管理
- データベース
- データマイニング
- データセキュリティ
- データ統合
- データの移動
- データ品質保証
- メタデータ管理 (データ リポジトリとその管理)
- 戦略的データ アーキテクチャ
対象分野
DAMA DMBOK [DAMA International Guide to Data Management Body of Knowledge (DAMA DMBOK ® )] の部門によると、データ管理の分野には次の部分が含まれます。
- データ ガバナンス: データ資産、データ ガバナンス
- データ アーキテクチャ、データ (モデル) 分析と設計: データ アーキテクチャ、データ分析、データ モデリング
- データベース管理: データ保守、データベース管理、データベース管理システム
- データセキュリティ管理: データアクセス管理、データ消去管理、データプライバシー、データセキュリティ
- データ品質管理: データの明確性、データの整合性、データの強化、データ品質、データ品質保証
- 参照およびマスターデータの管理: データ統合、マスターデータ管理、参照データ
- データ ウェアハウジングとビジネス インテリジェンス管理: ビジネス インテリジェンス、データ マート、データ マイニング、データ移動 (抽出、変換、ロード)、データ ウェアハウジング
- 文書、記録およびコンテンツ管理: 文書管理システム (DMS)、記録管理
- メタデータ管理: メタデータ管理、メタデータ検出、メタデータ公開、メタデータ登録
- 連絡先データ管理: 事業継続計画、マーケティング運用、顧客データ統合、アイデンティティ管理、個人情報盗難、データ盗難、ERP ソフトウェア、CRM ソフトウェア、住所 (地理)、郵便番号、電子メール アドレス、電話番号
データの種類
データの記述レベル、業務フロー、用途などに基づいて、データを次の種類に分類できます。
- メタデータ
- 参照データ
- マスターデータ
- トランザクションデータ
メタデータ
メタデータ (Meta Data) は、データを説明するために使用されるデータ (他のデータを説明するデータ)、または特定のリソースに関する情報を提供するために使用される構造化データです。
メタデータとは、情報資源やデータなどのオブジェクトを記述するデータであり、その目的は、資源の識別、資源の評価、使用中の資源の変化の追跡、ネットワーク化された大量のデータの簡単かつ効率的な管理の実現、情報資源の効果的な発見の実現、リソース使用量の検索、統合された組織、および効率的な管理。
次のような一般的なメタデータ:
- 書籍目録情報
- 写真のEXIF情報
- 登録情報フォーム
- 豆瓣映画情報
参照データ
参照データ (参照データとも呼ばれます) は、一般的な定義を作成し、データの範囲と意味を説明するために使用されます。メタデータの可能な値の範囲を示します。テーブルを設計するときに参照するデータ ディクショナリは、多くの場合参照データです。たとえば、性別は男性と女性のみ、男性と女性は参照データ、国の参照データは世界 100 以上の国と地域です。
以下のような一般的な参照データ:
- 性別 男性、女性、その他
- 注文の状況
- 製品サイズ、カラー、OS
- 動画の公開状況
メインデータ
マスターデータとは、ユーザー、製品、注文、ショッピングカート、記事、ビデオなどのビジネスエンティティを指します。マスターデータは、部門やシステム間での情報交換に使用されます。
マスター データの目的は、ビジネス エンティティ、つまりビジネス エンティティに含まれる属性と動作をモデル化し、さまざまなシステムにおけるビジネス エンティティ データの一貫性を確保することです。
次のような共通のマスター データ:
- ECにおける商品情報とユーザー情報
- ニュースサイトのニュース
- 動画サイトのビデオとポッドキャスター
- B2B の販売者
- フードデリバリープラットフォームのショップ
取引データ
トランザクション データとは、マスター データ間のアクティビティによって生成されたデータを指します。たとえば、顧客が商品を購入する取引記録は取引活動データであり、放送局に対するユーザーの注目や報酬も取引データです。
以下のような一般的なトランザクション データ:
- 電子商取引の注文によって発生した注文と支払い
- ライブ ブロードキャスト プラットフォームのユーザーはアンカーとブラシのギフトを気に入っています
- ソーシャル ネットワーキング サイトにおけるユーザーの注意行動
- チャット情報、IMツール利用者が投稿する公開情報
- 関係と特徴
データ型の特徴
次の次元で評価します。
- データ量、更新頻度:参照データ<メタデータ<マスターデータ<トランザクションデータ
- ライフサイクル、データ品質: 参照データ > メタデータ > マスター データ > トランザクション データ
データ型間の関係
典型的なケース:
- メタデータ、マスターデータ、トランザクションデータはすべて参照データを使用します
- マスターデータにはメタデータが含まれます
- トランザクションデータはマスターデータ間の動作です
ギグ
ガベージ・イン・ガベージ・アウト(英語: Garbage in、garbage out、略称: GIGO )、またはウェイスト・イン、ウェイスト・アウト、ウィキなどと訳される、コンピュータサイエンスおよび情報通信技術の分野における慣用句で、間違った場合にそのことを示す。 , 無意味なデータがコンピュータシステムに入力されると、コンピュータは当然間違った意味のない結果を出力します。同じ原理はコンピューティング以外の他の分野でも明らかです。
統計において、分析された生データが間違っていて不正確であれば、統計的な結論は信頼できなくなります。
データ品質評価
GIGO などの問題を回避するには、次の 4 つの観点からデータ品質を評価します。
- 整合性: 主に、エンティティの欠落、属性の欠落、レコードの欠落、およびフィールド値の欠落の 4 つの側面が含まれます。
- 精度: データ値が正確であると想定されている値とどの程度一致するか、または許容可能性とどの程度異なるか。
- 合理性: 主に形式、タイプ、値の範囲、ビジネス ルールの合理性と妥当性が含まれます。
- 一貫性:システム間のデータの差異や矛盾の一貫性、ビジネス指標の統一定義、データロジックの処理結果の一貫性。
- 適時性: データ ウェアハウス ETL、アプリケーション表示の適時性と迅速性、時間のかかる実行品質、およびジョブの依存実行の適時性。
データ品質管理
データ品質機能モジュールの設計には、主に監視オブジェクト管理、検査インデックス管理、データ品質プロセス監視、問題追跡管理、推奨最適化管理、ナレッジベース管理、システム管理などが含まれます。プロセス監視には、オフライン データ監視とリアルタイム データ監視が含まれます。問題の追跡と処理は、問題の発見 (自動チェックと手動入力をサポート)、問題の報告、タスクのプッシュ、障害のグレーディング、障害処理、ナレッジ ベースによる閉ループ プロセスを形成します。降水量。
データガバナンス
DAMA はデータ ガバナンスを次のように定義しています: データ ガバナンスは、データ資産管理に対する権限と制御を実行するアクティビティ (計画、監視、および実行) の集合です。データ ガバナンス機能は、他のデータ管理機能がどのように実行されるかをガイドします。この定義は少し曖昧なようです。私が理解しているデータ ガバナンスは、実際には優先順位管理 + プロセス管理です。優先順位管理とは、データ管理のさまざまな問題に優先順位を付ける必要があることを意味します。プロセス管理とは、人、役割、責任、つまり誰がどのような役割を果たし、どのような問題に責任を負うのかということです。たとえば、データが欠落しているという問題が発生した場合、この問題にどのような優先順位が付けられ、誰がこの問題を解決するのかなどです。
データセキュリティ
インターネット上で、特定のサイトのユーザー情報が流出したというニュースをよく見かけます。しかも、データベースの接続情報がgithub上に直接保存されていたため、データベースがコピーされてしまいました。これらはすべて、データセキュリティ作業の失敗によって引き起こされます。私は個人的に、データセキュリティは技術的および制度的側面から始まると考えています。テクノロジー面では、データの保存、送信、アプリケーション、バックアップ時のデータのセキュリティを確保し、データ漏洩を防ぐ必要があります。システム面では、音声データのアクセス制御や権限管理の仕組みを確立する必要がある。