機械学習がビッグデータの変換と管理の問題の解決にどのように役立つか

  機械学習がビッグデータの変換と管理の問題の解決にどのように役立つか

  ビッグデータ分析テクノロジーは驚くべき進歩を遂げましたが、データ変換やデータ管理などの重要なタスクを手動で完了する必要があります。データ量が増えると、手動タスクと自動化の生産性のギャップが大きくなり、人工知能と機械学習に基づく自動化のトレンドがますます市場性を高めています。機械学習はこのギャップを埋めるのに役立ちますか?

  率直に言って、データ変換とデータ管理の問題は非常に困難です。あらゆる分野の企業が、機械学習とデータベースを組み合わせて競争上の優位性を獲得したいと考えています。しかし、不正確なデータ、統合されていないデータ、比類のない、一致しないデータなどのデータの問題が発生しており、同社のビッグデータ計画に問題があります。

  機械学習に従事する多くのデータサイエンティストは、入力データの検索、統合、修復、クリーンアップに90%の時間を費やしています。データサイエンティストがデータサイエンティストではなくなったことに人々は気づいていないようですが、データインテグレーターになっています。

  しかし、良いニュースもあります。機械学習自体が機械学習に役立ちます。アイデアは、人間のデータ処理をシミュレートするアルゴリズムの予測力を使用することです。これは100%完璧なソリューションではありませんが、作業の集中を緩和し、データサイエンティストが真に革新的な作業に取り掛かることができます。

  MLはどこでも購入でき、MLを使用してETL変換部分を完了することができます。

  データの変換と管理

  いくつかの点では似ていますが、データ管理とデータ変換には重要な違いがあります。データ変換はデータ統合プロセスの最初のステップであり、その目的は、異種データを組織が事前に定式化できるユニバーサルグローバルモデルに変換することです。自動化されたスクリプトは、米ドルをユーロに、またはポンドをキログラムに変換するためによく使用されます。

  変換フェーズの後、アナリストはデータの管理と分析を開始します。通常、最初のステップでは、「一致/マージ」機能を実行して、同じであるが同じスペルの名前をグループ化するなど、同じエンティティに対応するレコードのクラスターを作成します。「距離の編集」などの概念を使用して、2つの異なるエンティティ間の距離を決定できます。

  次に、より多くのルールを使用してさまざまなエンティティを比較し、特定のレコードに最適な値を決定します。会社は、最後の項目が最良であることを宣言するか、または一連の値で共通の値を使用して、最良のデータを生成できます。

  何十年もの間、この一般的な2ステップのプロセスは多くのデータウェアハウスで使用されており、現在のデータレイクで引き続き使用されています。しかし、ETLとデータ管理は、今日のデータ量と企業が直面している課題の規模に対応できていません。

  たとえば、これにはグローバルモデルを事前に定義する必要があるため、多くのETLを続行できなくなり、これらの取り組みにより多くのデータソースを統合しようとします。場合によっては、プログラマーは、設定する必要があるデータ変換規則の数に追いつけないことがあります。

  データソースが10個ある場合でもこれを行うことができますが、10,000個ある場合はほとんどありません。

  明らかに、これには別のアプローチが必要です。

  中小企業では、事前にグローバルデータスキーマを作成し、それを組織全体で強制的に使用できるようにすることで、高価なETLおよびデータ管理プロジェクトのコストを削減し、それらをデータウェアハウスにまとめることができます。ただし、大規模な組織では、このトップダウンアプローチは必然的に失敗します。

  大企業のビジネスユニットが互いに非常に似ていても、データの記録方法にはわずかな違いがあります。これらの小さな違いは、意味のある分析を行う前に考慮する必要があります。これは、企業データの性質を反映したものです。

  したがって、ビジネスの柔軟性にはある程度の独立性が必要です。つまり、各ビジネスユニットは独自のデータセンターを確立します。

  たとえば、Toyota Motor Europeを例にとると、会社には各事業国に独立したカスタマーサポート組織があります。同社は、40の異なる言語で3,000万のレコードを含む250のデータベースにすべてのエンティティのマスターレコードを作成したいと考えています。

  トヨタモーターヨーロッパが直面している問題は、ETLとデータ管理プロジェクトの規模が巨大であり、従来の方法で実行すると、大量のリソースを消費することです。同社は、データ変換やデータ管理プロセスの使用ではなく、機械学習の課題を解決するためにTamrを使用することを決定しました。

  ETLの最大の問題は、グローバルモデルが事前に定義されていることです。これを大規模に行う方法は問題です。ターゲットパターンのボトムアップマッチングとボトムアップ構築には機械学習を使用する必要がありますが、スケールの観点からは、これが唯一の実行可能な方法です。

  これは、機械学習がこれらの難しいデータ統合問題を解決する非常に簡単な方法を提供することを意味しません。それでも多くのデータと処理能力が必要ですが、通常、ソフトウェアをガイドして正しいデータ分析結果と意思決定の洞察を得るために、最高の従業員の1人が必要です。

  この観点からすると、コストは安くはありませんが、これは最も重要ではありません。しかし、異なるサプライヤー間でどのように選択するかについてはまだ疑問があります。異なる国または地域のサプライヤーは異なるソリューションを提供しており、一部のマクロ要素については、異なるオプションが表示されます。

  セキュリティ上の理由から、これらのデータの問題を他の会社に完全に外部委託することはできないため、データを完全に処理するために機械学習を使用することを期待しないでください。人々の役割は依然として非常に重要です。データの統合と管理の効率を最大化できるのは、人間と機械学習だけです。

おすすめ

転載: www.cnblogs.com/jinsexiaomifeng/p/12673942.html