データレイクとは何ですか? データレイクのキーテクノロジー(1)

データレイクの発展に伴い、現在多くの技術的課題に直面しており、さまざまな技術的問題を継続的に改善、解決する必要があります。データ レイクは現在のビッグ データ テクノロジー研究のパラダイムであり、研究者はこれを通じてビッグ データ テクノロジーが直面するさまざまな課題に対処します。これらの主要テクノロジーのブレークスルーにより、ビッグ データ テクノロジーが向上し、データ レイク テクノロジーが強化され続けており、これらの高度なテクノロジーとソリューションの重要な役割が浮き彫りになっています。この記事では、データ ストレージ、データ インジェスト、データ編成、データ探索の 4 つの側面に分けて、データ レイクの主要なテクノロジについて説明します。

データストレージ

データ ストレージは常にデータ レイクの概念の中核問題であり、基本的な問題です。データ レイク環境では、ストレージ システムの選択は、ストレージのコスト、拡張性、セキュリティに関係するだけでなく、データ アクセスの有効性と柔軟性にも影響します。データ レイク アーキテクチャのストレージ システムは、基盤となるインフラストラクチャとして、データ処理プロセス全体で重要な役割を果たします。

多くのデータ レイク実装者は、さまざまな種類の生データを安価に保存するという問題を懸念しています。データ レイク ストレージ システムの中で最も広く使用されているのは Hadoop の分散ファイル ストレージ システム HDFS で、半構造化データ (CSV、XML、JSON など) や非構造化データ (グラフやビデオなど) を含むさまざまな種類のデータを安価に保存できます。 。

ストレージ方式に関しては、データ レイクは単一のストレージ システムまたは複数のストレージ システムを使用できます。単一のストレージ システムは 1 種類のデータベースのみをサポートします。CLAMS ストレージ システム、Personaldatatalake などはすべてこのカテゴリに分類されます。マルチストレージ システムは、さまざまな異種データにアクセスする複数のデータ ストレージ構成を統合します。たとえば、Constance システムと SQRE アーキテクチャは両方とも、リレーションシップ、ドキュメント、グラフィックス、その他のタイプを含むマルチストレージ データベース システムを使用して、取得した生データを保存します。マルチストレージ システムは、大規模な異種データを保存するデータ レイクの必然的な結果です。

もう 1 つの開発機能は、リレーショナル ストレージと NoSQL ストレージのハイブリッド使用です。このストレージ方法は、Google Data Lake の DatasetSearch、CoreDB、CoreKG、その他の製品やアーキテクチャ システムなどのビッグ データ分析におけるリレーショナル データベースの価値を効果的に高めます。Microsoft の Azure Data Lake Storage System (ADLS) は、リレーショナル データベースと分散ストレージ テクノロジ (HDFS) を深く統合したクラウド ストレージ サービスです。ADLS は階層ストレージ構造を採用し、ストレージ層のアクセス方法を強化することでコストとパフォーマンスの最適なトレードオフを実現し、セキュリティを向上させます。

クラウド ストレージはデータ レイク ストレージの重要な開発トレンドであり、特に一部の商用データ レイクは AWS、ADLS、Alibaba Cloud Storage、Tencent Cloud Storage などのクラウド ストレージ上に構築されています。ローカル環境と比較して、クラウド環境では、安価なストレージ、マルチユーザー、スケーラビリティなどのデータ レイクの利点がより顕著になります。

データの取り込み

データの取り込みは、さまざまな異種データ ソースからデータ レイクにデータを移動するプロセスです。ビッグ データ業界では、豊富なデータ取り込みツールが多数提供されており、データ レイクはこれらのツールを活用してデータ取り込みフェーズを実装できます。

データの取り込みは、単なるデータのコピー アンド ペーストではなく、取り込まれたデータが常に検索可能、アクセス可能、相互運用可能、再利用可能であることを保証する必要がある複雑かつ重要な段階です。このプロセスで最も重要なタスクは、取り込まれたデータのメタデータ構造を維持して、データがデータ レイクに入った後に使用できなくなるのを防ぐことです。

メタデータの取得

メタデータの抽出は、データ取り込みフェーズにおける大きな課題です。異種データ ソースの不確実性に適応するには、柔軟で拡張可能なメタデータ構造を採用することが重要です。GEMMS は、柔軟でスケーラブルなデータ レイク メタデータ管理システムです。このシステムは、異種データ ソースからメタデータを抽出し、そのメタデータを拡張可能なメタモデルに保存できます。まず、メタデータ属性がキーと値のペアの形式で保存され、次に元のデータの構造 (行列、ツリー、グラフなど) が構造メタデータを通じて識別され、最後に次の形式でセマンティック モデルに接続されます。追加のセマンティック データの。

Constance システムはインテリジェント データ レイク システムです。データ インジェスト フェーズ中にできるだけ多くのメタデータを抽出するために、システムは構造メタデータ検出 (SMD) コンポーネントを使用しますが、このコンポーネントは主に半構造化データのメタデータの問題を解決します。ソース データ構造の洗練の問題。澤道後らは、非構造化データからメタデータを抽出する際の問題を補う、データレイク内のテキスト文書のメタデータ構造を抽出する方法を提案した。Datamaran は、データ レイク環境で複雑なログ ファイルを変換するのに適したアルゴリズムであり、教師なしの方法で半構造化ログ データからメタデータ構造を自動的に抽出します。Datamaran アルゴリズムは、データ境界の決定、データ フィールドの決定、複雑な構造、冗長構造、セマンティック構造などの問題を解決します。

メタデータモデリング

Gartner がデータ スワンプ問題を提案して以来、多くの研究者がメタデータ管理を通じてこの問題を解決しようとしてきました。メタデータは、データ レイク内の膨大なデータを記述し、導くための鍵であると考えられています。メタデータ管理には、データ ソース管理、データ インジェスト プロセス、データの正確性、データ セキュリティ、データ セットの関連付けなどが含まれ、メタデータ モデリング テクノロジがメタデータ管理の主な内容です。

データ レイクのメタデータ モデルに関する研究結果は豊富で、複数のメタデータ モデルが登場しています。取得したメタデータを表示するために、Constance システムはグラフ モデリング テクノロジのセマンティック メタデータ マッチング (SMM) コンポーネントを使用します。これには、セマンティック モデリング、属性注釈、リンクされたレコード、セマンティック エンリッチメント、およびその他の機能が含まれます。

さまざまなタイプのメタデータを識別することは、共通のメタデータ モデルを実装する際の重要な課題です。MEDAL モデルは、メタデータの種類をオブジェクト内 (Intraobject)、オブジェクト間 (Inter-object)、およびグローバル (Global) メタデータに分類し、セマンティック データ、データ バージョン、データの血統関係、類似性などの主要な属性を詳細に説明します。Diamantini らは、メタデータを参照ビジネス メタデータ、運用メタデータ、技術メタデータに分割し、ネットワークおよびセマンティック主導のモデリング手法に基づいてメタデータ表現を強化しました。

このほか、現段階では比較的完成度の高いメタデータモデルとして、Eichlerらが提案したHANDLEモデルやSchollyらが提案したgoldMEDALモデルなどがある。データ レイクのメタデータ モデルの設計は、データ レイクのデータ ライフ サイクル プロセス全体と密接に関連しており、各段階のメタデータにはその段階の特性と機能があります。

データメンテナンス

データレイクに取り込まれたデータは非常に大規模かつ複雑であり、データ分析の目的を達成するには、これらの膨大な生データを効果的に維持することが非常に必要です。データ保守フェーズのタスクには、データの準備、関連データセットの検出、データ統合、データのクリーニングなどが含まれます。

データ整理 

大規模なビッグデータ組織は、手動介入の限界、データ処理効率、関連データの検出、異種データ変換など、多くの課題に直面しています。データ編成の効果はデータの使用と分析に直接影響し、データ レイクにおける重要なデータ処理リンクの 1 つです。ビッグデータ技術研究の分野では、データ組織の問題が最も活発な研究分野であり、多くの研究者が注目するデータレイクの主要技術でもあります。

データ レイク環境では、データを手動で整理することが不可能になっているため、データ組織が解決する必要がある主な問題は自動化です。Kayak は、データ サイエンティストがデータ準備パイプラインを定義および最適化するのに役立つフレームワークであり、このシステムでは、データ利用者はニーズに応じてデータ検出パイプラインをカスタマイズできます。多くの場合、システムは概算の結果を提供して、元の結果をすばやくプレビューすることでパイプラインの実行効率を向上させ、データの準備時間を短縮します。それにもかかわらず、一部の学者はデータ整理プロセスにおける手動介入の必要性を提唱しており、Brackenbury らは実験を通じてデータ発見プロセスにおける手動介入の重要性を実証しました。

メタデータ管理は、データ保守プロセスでも重要な役割を果たします。GOODS は、Google データレイク内のデータセットを整理するために設計されたシステムです。GOODS は、データ パイプラインの作成、アクセス、データ セットの更新のプロセス中に関連するデータ セットのメタデータを収集し、このメタデータ ディレクトリを通じてデータ セットを管理および整理します。Alserafi et al. [56] は、データ レイク内の重複データ セット、関連データ セット (つまり、データ セット間の「結合可能な」データ属性)、および無関係なデータ セットに焦点を当て、エンドツーエンドのコンテンツを通じてデータにデータを提供します。メタデータ管理プロセス: 組織は体系的なアプローチを提供します。

データ検出は、データ整理プロセスの中で最も話題になっている領域の 1 つであり、多くのデータ サイエンティストにとって懸念事項です。類似性はデータ発見技術において最も重要な分野であり、Brackenbury らは、データの本質、起源、現在の特性などの側面に基づく類似性比較フレームワークを提案し、データ類似性発見の研究基盤を提供しました。IT 専門家以外のユーザーでもニーズに応じてデータを発見できるように、BARENTS はオントロジー手法を使用してデータ レイクにデータ準備パーティションを作成し、ユーザーはこのパーティションでデータ準備プロセスをニーズに応じてカスタマイズできます。相関データセットの発見効率を向上させるために、Nargesian らは、関心のあるトピックの関連テーブルを発見する確率を計算できるマルコフ ナビゲーション モデルを提案しました。機械学習は、データの相関関係を発見する際にも重要な役割を果たします。DLN [59] は、相関モデルを構築および使用して Cosmos (Microsoft Data Lake) データ グラフを構築するシステムです。このモデルは、機械学習を通じて関連するデータ列の特性をトレーニングし、メタデータの特性を組み合わせて相関モデルを構築します。

データ レイク内のデータ セマンティクスの長期蓄積は時間の経過とともに変化し続けており、データ形式の異質性と膨大な量のデータ収集と相まって、柔軟で変更可能なスキーマ管理なしではデータ レイクから価値を引き出すことは困難です。Klettke et al.は、データレイクにおける柔軟かつ変更可能なスキーマの問題はスキーマ進化プロセスによるものであると考え、データレイク内のスキーマバージョンシーケンスを抽出し、スキーマバージョン間のマッピング関係を確立して、スキーマ進化の履歴を復元する問題を解決しました。 。

データレイク環境では自動化技術とメタデータ技術が非常に重要で、特にメタデータ管理技術はデータ整理において非常に重要な役割を果たします。データ組織の問題では、初期のデータ相関発見テクノロジーとトピックベースのデータ ナビゲーション テクノロジーが現在研究のホットスポットとなっており、セマンティクス、オントロジー、機械学習、グラフなどのテクノロジーが重要な役割を果たしています。現在、データレイクにおけるデータ編成の研究範囲は、データパイプライン、データクリーニング、データ相関、データパターン進化など比較的複雑であり、多くの研究者がデータ編成とデータ探索を組み合わせています。研究者によるデータ レイク内のデータ処理段階の分割が十分に明確ではないことがわかります。これは別の観点から、分析がデータ メンテナンスを直接推進する必要があるデータ レイクの特性を証明しています。

リンクされた表形式データセットの検出

すでに大量のデータがロードされているデータ レイクでは、データ レイク内のすべてのデータを統合したりクエリしたりすることは無意味であり、不必要です。それどころか、現在のトピックに関連するデータを効果的かつ正確に発見することが、多くのデータ レイク ユーザーの焦点となっています。リンク データ セット検出テクノロジは、ユーザーがデータの検出に多くの時間を費やしているという問題を解決し、ビッグ データの統合問題を解決する重要な部分です。データ セット検出テクノロジに関する研究の多くは、表形式のデータに焦点を当てています。これは、現在、Web テーブル、スプレッドシート、CSV ファイル、リレーショナル データベースなどの内部データ セットが企業内に存在する主な方法が表形式データであるためです。

関連するテーブル データを迅速に検出するために、エンタープライズ ナレッジ グラフ (EKG) を使用してデータ セット間の関係をキャプチャし、異なるデータ リソース間のガイダンスをユーザーに提供できます。AURUM は EKG に基づいて実装されたデータセット検出システムであり、EKG は 2 段階のアルゴリズムを通じてデータ レイク内の大量のデータ マッチングのパフォーマンス問題を解決します。さらに、アナリストが同じトピックに属する関連データ セットを見つけやすくするために、kNN は、関連する分析トピックをカバーする類似のデータ セット グループと基礎となる構造を検出し、データ レイク内で関心のあるトピック カテゴリを事前定義できます。

DS-Prox 手法は文献で拡張されており、データセットのペア間の類似性を割り当てるための最も適切な尺度を見つけるために、属性レベルの近接尺度が提案されています。JOSIE は、top-k 重複セット類似性検索アルゴリズムを使用し、データ分散に適応する機能を備え、さまざまなデータ レイクでデータ検出タスクを実行できます。Juneau は、データ テーブルの関連性を測定できるフレームワークで、行と列の重複、ソースの関係、類似性、その他の測定を通じて、最も関連性の高いデータ テーブルを返します。Starmie は、データ レイクのテーブル データ関連付け検索フレームワークです。このフレームワークは、比較学習手法を通じて表形式データの豊富な意味情報を取得し、検索効率とマッチングを大幅に向上させます。ただし、重複測定に基づく関連データセット検出手法は、データ レイク環境における表形式データの異なる表現とセマンティクスの問題に適応できません。Dongらは、PEXESOフレームワークのピボットフィルタリングに基づくブロック検証手法を通じてこの問題を解決しているが、その手法は、高次元ベクトルとして埋め込まれたクエリレコードと、同様の述語接続に基づく方向条件に限定されている。さらに、PEXESO フレームワークはパーティショニング テクノロジを使用して、データ レイクをメイン メモリにロードできないという問題を解決します。Helal は、ナレッジ グラフに基づくデータセット検出プラットフォームを提案しました。これは、スキーマレス データ セットをスキーマ データ セットに変換し、スケーラブルでクエリ可能なナレッジ グラフを通じて関連するテーブル データ検出の問題を解決します。

テーブル関連のデータ発見技術の研究は比較的豊富で、相関関係を発見するための初期のリスト重複技術から、メタデータ、高緯度、ナレッジグラフ、機械学習などに基づく相関発見まで、類似性発見の効果だけでなく、大幅に改善され、データ レイク環境における柔軟で変更可能な異種データの問題が解決されました。しかし、表形式のデータ相関関係に関する既存の文献では、柔軟かつ変更可能なデータの問題に関する研究はまだ不十分であり、特にこの問題に関する評価と実験は非常に限られており、研究者によるさらに詳細な分析と議論が必要です。

おすすめ

転載: blog.csdn.net/WhiteCattle_DATA/article/details/132859767