ビッグデータとは何ですか?なぜそれがそれほど重要なのですか?

ここに画像の説明を挿入

ビッグデータは、組織によって収集された構造化データ、半構造化データ、および非構造化データの組み合わせです。これらのデータは、情報マイニング、機械学習プロジェクト、予測モデリング、およびその他の高度な分析アプリケーションに使用できます。

ビッグデータを処理および保存するためのシステムは、組織のデータ管理アーキテクチャの一般的な部分になっています。ビッグデータの特性は、多くの場合3Vです:ボリューム(大規模)、速度(速度)、多様性(多様性)。多くの環境では、データの量が多く、ビッグデータシステムに格納されるデータの種類が多様であり、データの生成、収集、および処理の速度が異なります。2001年、Meta GroupInc。のアナリストであるDougLaneyは、これらの特性を初めて発見しました。Gartnerは、2005年にMeta Groupを買収した後、これらの特性をさらに推進しました。最近、精度、値、変動性など、ビッグデータのさまざまな説明に他のいくつかのVが追加されました。
ビッグデータは特定の量のデータと同等ではありませんが、ビッグデータの展開には通常、TB(TB)、PB(PB)のサイズレベル、さらには時間の経過とともにキャプチャされたデータのEB(EB)が含まれます。

ビッグデータの重要性

同社は、システムに蓄積されたビッグデータを使用して、運用を改善し、より良い顧客サービスを提供し、特定の顧客の好みに基づいてパーソナライズされたマーケティングキャンペーンを作成し、最終的に収益性を高めます。ビッグデータを使用する企業は、データを効果的に使用する限り、より迅速で情報に基づいたビジネス上の意思決定を行うことができるため、ビッグデータを使用しない企業よりも競争上の優位性があります。

たとえば、ビッグデータは企業に顧客に関する貴重な洞察を提供し、これらの洞察を使用してマーケティング活動とテクノロジーを改善し、顧客エンゲージメントとコンバージョン率を高めることができます。

さらに、ビッグデータの使用により、企業はますます顧客中心になります。履歴データとリアルタイムデータを使用して、消費者の変化する好みを評価できるため、企業はマーケティング戦略を更新および改善し、顧客の要望やニーズにより適切に対応できます。

ビッグデータは、医学研究者が病気の危険因子を特定するために、また医師が個々の患者の病気や状態を診断するために使用されます。さらに、電子健康記録(EHR)、ソーシャルメディア、インターネット、およびその他のソースからのデータエージェンシーは、感染症の脅威または発生に関する最新情報を提供します。エネルギー業界では、ビッグデータは石油およびガス会社が潜在的な掘削場所を特定し、パイプラインの運用を監視するのに役立ちます。同様に、公益事業者もそれを使用して電力網を追跡します。金融サービス会社は、リスク管理と市場データのリアルタイム分析にビッグデータシステムを使用しています。製造業者と輸送会社は、サプライチェーンを管理し、配送ルートを最適化するためにビッグデータに依存しています。その他の政府の用途には、緊急対応、防犯、スマートシティイニシアチブなどがあります。

ビッグデータの例

ビッグデータは、ビジネストランザクションシステム、顧客データベース、医療記録、インターネットクリックストリームログ、モバイルアプリケーション、ソーシャルネットワーク、科学研究リポジトリ、機械生成データ、IoT(宝くじ)環境での使用など、数え切れないほどのさまざまなソースから取得されます。リアルタイムデータセンサー。データは元の形式でビッグデータシステムに残される場合もあれば、データマイニングツールまたはデータ準備ソフトウェアを使用して前処理され、特定の分析目的のために準備される場合もあります。

顧客データを例にとると、ビッグデータセットの情報を使用して分析できるさまざまなブランチには次のものがあります。

比較解析。これには、企業の製品、サービス、およびブランドの権威を競合他社と比較するために、ユーザーの行動指標を確認し、リアルタイムの顧客募集を観察することが含まれます。
ソーシャルメディアリスニング。これは、ソーシャルメディアで特定の会社や製品について人々が言うことに関する情報であり、世論調査や調査で伝えることができる情報を超えています。これらのデータは、特定のトピックに関するさまざまなソースからのアクティビティを観察することにより、マーケティングアクティビティのターゲットオーディエンスを決定するのに役立ちます。
市場分析。これには、新製品、サービス、イニシアチブのプロモーションをより多くの情報に基づいて革新的にするために使用できる情報が含まれます。
顧客満足度と感情分析。収集されたすべての情報は、潜在的な問題が発生する可能性がある場合、顧客が会社またはブランドについてどのように感じているか、ブランドの忠誠心を維持する方法、および顧客サービスを改善する方法を明らかにすることができます。

ビッグデータの特徴を分析する

ボリュームは、ビッグデータで最も頻繁に引用される機能です。ビッグデータ環境には大量のデータを含める必要はありませんが、データが収集されて保存されるため、ほとんどの場合、大量のデータを含める必要があります。クリックストリーム、システムログ、およびストリーム処理システムは、通常、大量のビッグデータを継続的に生成するソースの1つです。

ビッグデータには、次のようなさまざまなデータ型も含まれます。

構造化クエリ言語(SQL)に基づくデータベースおよびデータウェアハウス内の
構造化データ、HadoopクラスターまたはNoSQLデータベースシステムに保存されたテキストファイルやドキュメントファイルなどの非構造化データ、および
Webサーバーログやセンサーからのストリーミングデータなどのセマンティック構造データ。
さまざまなデータタイプをすべてデータプールに保存できます。データプールは通常、Hadoopまたはクラウドオブジェクトストレージサービスに基づいています。さらに、ビッグデータアプリケーションには複数のデータソースが含まれていることが多く、そうでない場合は統合できない可能性があります。たとえば、ビッグデータ分析プロジェクトでは、製品の過去の販売データ、返品データ、およびオンラインの購入者レビューデータを相互に関連付けることにより、製品の成功と将来の販売を測定しようとする場合があります。

速度とは、ビッグデータが生成される速度を指し、処理および分析する必要があります。多くの場合、ビッグデータセットは、多くの従来のデータウェアハウスで毎日、毎週、または毎月更新されるのではなく、リアルタイムまたはほぼリアルタイムで更新されます。ビッグデータ分析アプリケーションは、受信データを取り込んで相互に関連付け、分析し、クエリ全体に基づいて回答または結果を提供します。つまり、データサイエンティストやその他のデータアナリストは、既存のデータを詳細に理解し、受け取った情報が有効で最新のものであることを確認するために、探している回答をある程度理解している必要があります。

ビッグデータ分析が機械学習や人工知能(AI)などの分野に拡大するにつれて、データ速度の管理も重要になります。これらの分野では、分析プロセスが収集されたデータのパターンを自動的に検出し、それらを使用して洞察を生成します。

ビッグデータのその他の機能

元の3Vの観点からは、データの精度はデータセットの確実性の程度を指します。ソーシャルメディアプラットフォームやWebページなどの複数のソースから収集された不確実な生データは、重大なデータ品質の問題を引き起こす可能性があり、それを特定するのは難しい場合があります。たとえば、何百ものソースから大規模なデータセットを収集する会社は、不正確なデータを特定できる場合がありますが、そのアナリストは、問題を修正できるように、データの保存場所を追跡するためのデータ系統情報を必要としています。

データが不十分だと分析が不正確になり、経営幹部がデータ全体を信用できなくなる可能性があるため、ビジネス分析の価値が損なわれる可能性があります。ビッグデータ分析アプリケーションで使用する前に、組織内の不確実なデータの量を考慮する必要があります。ITチームと分析チームは、効果的な結果を生み出すのに十分な正確なデータがあることを確認する必要もあります。

一部のデータサイエンティストは、ビッグデータの機能リストに付加価値を付けています。上記のように、収集されたすべてのデータが実際のビジネス価値を持っているわけではなく、不正確なデータを使用すると、分析アプリケーションによって提供される洞察が弱まる可能性があります。重要なことは、組織はビッグデータ分析プロジェクトを使用する前にデータクリーニングやその他の手法を採用し、データが関連するビジネス上の問題に関連していることを確認する必要があるということです。

変動性は、従来のトランザクションデータよりも一貫性が低く、複数の意味を持っているか、データソースごとに異なる方法でフォーマットされている大規模なデータセットにも適用されることがよくあります-これらの要因により処理が行われ、データを分析する作業はさらに複雑になります。より多くの機能をビッグデータに帰する人もいます。データサイエンティストとコンサルタントは、7から10の機能のさまざまなリストを作成しました。

ビッグデータの保存と処理の方法

ビッグデータの速度を処理する必要があるため、基盤となるコンピューティングインフラストラクチャに固有の要件が課せられます。大規模で多様なデータを迅速に処理するために必要な計算能力は、単一のサーバーまたはサーバークラスターを圧倒する可能性があります。組織は、必要な速度を達成するために、ビッグデータタスクに十分な処理能力を適用する必要があります。これには数百または数千のサーバーが必要になる場合があり、通常はHadoopやApache Sparkなどのテクノロジーに基づいて、処理作業を分散し、クラスターアーキテクチャで協調的に動作できます。

費用効果の高い方法でこの速度を達成することも課題です。多くのビジネスリーダーは、ビッグデータのワークロード、特に24時間年中無休で稼働しないワークロードをサポートするために大規模なサーバーおよびストレージインフラストラクチャに投資することに消極的です。したがって、パブリッククラウドコンピューティングは現在、ビッグデータシステムを運ぶための主要なツールです。パブリッククラウドプロバイダーは、ギガバイトのデータを保存し、ビッグデータ分析プロジェクトを完了するために必要なサーバーの数を増やすことができます。ビジネスは実際に使用されたストレージとコンピューティング時間に対してのみ支払いを行い、クラウドインスタンスは再び必要になるまでシャットダウンできます。

サービスレベルをさらに向上させるために、パブリッククラウドプロバイダーには次のものが含まれます。


Alibaba Cloud Tencent Cloud
Amazon EMR(以前は縮小されたエラスティックマップ)
Microsoft Azure HDInsight
クラウド環境では、ビッグデータは次のように保存できます。

Hadoop分散ファイルシステム(HDFS)、
Amazon Simple Storage Service(S3など)などの低コストのクラウドオブジェクトストレージ、
SQLデータベースなし、
リレーショナルデータベース、
HadoopとSparkに加えて、ビッグデータシステムをオンプレミスにデプロイしたい組織向け一般的に使用されるApacheオープンソーステクノロジーには、次のものも含まれます。

YARNは、Hadoopに組み込まれているリソースマネージャーおよびジョブスケジューラです。別のリソースネゴシエーターを表しますが、通常は単独と呼ばれます。
マップローコードプログラミングフレームワークもHadoopのコアコンポーネントであり、
Kafkaはアプリケーション間です。メッセージングおよびデータフロープラットフォーム、
データベースに基づく
、Drill、Hive、Impala、PrestoなどのSQL-on-Hadoopクエリエンジン。

ビッグデータの課題

処理能力とコストの問題に加えて、ビッグデータアーキテクチャの設計は、ユーザーが直面するもう1つの一般的な課題です。ビッグデータシステムは、組織の特別なニーズに合わせて調整する必要があります。これは、ITチームとアプリケーション開発者が利用可能なすべてのテクノロジーのツールセットを組み合わせる必要があるDIYビジネスです。データベース管理者(DBA)やリレーショナルソフトウェアを専門とする開発者と比較して、ビッグデータシステムの展開と管理にも新しいスキルが必要です。

これらの問題は両方ともマネージドクラウドサービスを使用することで軽減できますが、IT管理者は、コストが制御不能にならないように、クラウドの使用に細心の注意を払う必要があります。さらに、内部データセットの移行とワークロードの処理は、組織にとって複雑なプロセスになることがよくあります。
データサイエンティストや他のアナリストにビッグデータシステムのデータへのアクセスを許可することも、特に異なるプラットフォームとデータストレージの組み合わせを含む分散環境では課題です。アナリストが関連データを見つけるのを支援するために、ITチームと分析チームは、メタデータ管理とデータ系統機能を含むデータカタログの構築にますます取り組んでいます。データセットがクリーンで一貫性があり、正しく使用されるようにするには、データ品質とデータガバナンスも優先する必要があります。

ビッグデータ収集の慣行と規制

長年にわたり、同社は顧客から収集するデータにほとんど制限を設けていません。ただし、ビッグデータの収集と使用が増えると、データの誤用も増えます。個人データの不適切な処理を経験した、またはデータ違反の被害者となった関連市民は、データ収集と消費者データのプライバシーの透明性に関する法律を求めています。

個人のプライバシーの侵害に対する抗議により、欧州連合は2018年5月に施行された一般データ保護規則(GDRP)を可決しました。これは、組織が収集できるデータの種類を制限し、個人が個人データに同意または準拠することを要求します。コレクションその他の特定の法的理由。GDP Rには、EU居住者が企業にデータの削除を要求することを許可する忘れられる権利条項も含まれています。

米国には同様の連邦法はありませんが、カリフォルニア消費者プライバシー法(CCPA)は、カリフォルニアの住民が会社の個人情報の収集と使用をより細かく管理できるようにすることを目的としています。CCPAは2018年に法制化され、2020年1月1日に発効する予定です。さらに、米国政府当局者は、データ処理慣行、特に消費者データを収集し、それを用途が不明な他の企業に販売するデータ処理慣行を調査しています。

ビッグデータ分析の人間的側面

最終的に、ビッグデータの価値と有効性は、データを理解し、ビッグデータ分析プロジェクトを導くための適切なクエリを作成する責任を負うスタッフに依存します。一部のビッグデータツールは、特殊なニッチに対応し、予測分析アプリケーションで日常のビジネスデータを使用できる技術ユーザーが少なくなります。Hadoopベースのビッグデータデバイスなどの他のテクノロジーは、ハードウェアおよび分散ソフトウェアテクノロジーの必要性を最小限に抑えながら、ビッグデータプロジェクトを処理するための適切なコンピューティングインフラストラクチャを実装するのに役立ちます。

ビッグデータは小さなデータと対比することができます。これは、セルフサービス分析に簡単に使用できるデータの量と形式を説明するために通常使用されるもう1つの進化する用語です。一般的に使用される区別方法:「ビッグデータは機械に属し、小さなデータは人に属します」。

この記事はsnowbeastソフトウェアから複製されたものです。
もっとエキサイティングなことをお勧めします。@ snow beastSoftwareの公式ウェブサイトにアクセスしてください。

おすすめ

転載: blog.csdn.net/u014674420/article/details/111930473