Hadoop詳細ドキュメント(1)ビッグデータの概要(詳細な説明ビデオ付き)

無料のビデオチュートリアル  https://www.51doit.com/  またはWeChat 17710299606のブロガーにお問い合わせください

1ビッグデータの背景

現在の社会は、高度な技術と情報の流通により、急速に発展する社会であり、人々のコミュニケーションはますます身近になり、生活はますます便利になってきており、ビッグデータはこのハイテク時代の産物です。

クラウド時代の到来とともに、ビッグデータもますます注目を集めています。ビッグデータは通常、企業が作成した大量の非構造化データおよび半構造化データを表すために使用されます。これらのデータは、分析のためにリレーショナルデータベースにダウンロードされると、時間と費用がかかりすぎます。大規模なデータセットのリアルタイム分析には、MapReduceのようなフレームワークが数十、数百、または数千のコンピューターに作業を分散する必要があるため、ビッグデータ分析はしばしばクラウドコンピューティングに関連付けられます。[2] 

今日の社会では、ビッグデータのアプリケーションはその利点をますます実証し、ますます多くの領域を占めています。開発にビッグデータを使用するeコマース、O2O、物流、流通などのさまざまな分野は、企業が発展し続けるのに役立ちます新しいビジネスを開発し、運用モデルを革新します。ビッグデータの概念により、消費者行動の判断、製品の売上予測、正確なマーケティングの範囲、在庫補充が包括的に改善され、最適化されました。

インターネット業界の「ビッグデータ」とは、現象を指します。インターネット企業は、日常業務でユーザーネットワークの行動データを生成して蓄積します。これらのデータのスケールは非常に大きいため、GまたはTでは測定できません。

ビッグデータはどのくらい大きいですか?「インターネット上の1日」という一連のデータは、インターネット上で生成されたすべてのコンテンツを1億6800万枚のDVDに刻むことができ、2940億通のメールが送信されることを示しています(米国では2年間の紙の手紙に相当します)。数); 200万のコミュニティ投稿が発行されました(770年のTimeマガジンのテキストの量に相当します); 378,000の携帯電話が販売されました。これは、世界で毎日生まれる371,000の赤ちゃんの数よりも多い... [1] 

2012年の時点で、データボリュームはTB(1024GB = 1TB)レベルからPB(1024TB = 1PB)、EB(1024PB = 1EB)、さらにはZB(1024EB = 1ZB)レベルにまでジャンプしています。International Data Corporation(IDC)の調査結果では、2008年に世界的に生成されたデータ量は0.49ZB、2009年のデータ量は0.8ZB、2010年の増加量は1.2ZB、2011年のデータ量は1.82ZBと高く、世界中のすべての人が200GB以上のデータを生成しています。2012年現在、人類が作成したすべての印刷物のデータ量は200PBであり、人類の歴史で語られてきたすべての単語のデータ量は約5EBです。IBMの調査によると、人類の文明全体によって取得されたすべてのデータの90%は、過去2年以内に生成されたものです。2020年までに、世界で生成されるデータの規模は今日の44倍に達するでしょう。[3]   世界中で毎日5億枚以上の写真がアップロードされており、毎分20時間のビデオが共有されています。ただし、音声通話、メール、メッセージ、アップロードされたすべての写真、動画、音楽など、人々が毎日作成するすべての情報でさえ、毎日作成される情報量と一致することはできません。人々自身に関するデジタル情報の量。

この傾向は続くでしょう。私たちはまだいわゆる「モノのインターネット」の初期段階にあり、テクノロジーが成熟するにつれて、当社の機器、車両、そして急速に発展している「ウェアラブル」テクノロジーが相互に接続して通信できるようになります。テクノロジーの進歩により、情報の作成、取得、および管理のコストは2005年の6分の1に減少しました。2005年以降、ハードウェア、ソフトウェア、人材、およびサービスへの事業投資も50%増加しました。 4,000億米ドルに達した。

2つの特徴

大量のデータ(ボリューム)

1つ目の特徴は、大量のデータです。ビッグデータの最初の測定単位は、少なくともP(1000 T)、E(100万T)、またはZ(10億T)です。

多品種(バラエティ)

2番目の機能は、さまざまなデータ型です。Webログ、オーディオ、ビデオ、画像、地理的位置情報などを含む複数のタイプのデータは、データ処理機能により高い要件を課します。

低い値の密度(値)

3番目の特徴は、データ値の密度が比較的低いことです。たとえば、モノのインターネットの広範なアプリケーションでは、情報の知覚は至る所にあり、情報は膨大ですが、値の密度は低くなります。強力なマシンアルゴリズムを通じてデータの値をより迅速に「精製」する方法は、ビッグデータの時代に解決すべき緊急の問題です。

高速かつ高効率(速度)

4番目の機能は、高速処理速度と高い適時性要件です。これは、ビッグデータと従来のデータマイニングを区別する最も重要な機能です。

既存の技術アーキテクチャとルートでは、このような大量のデータを効率的に処理できなくなります。関連組織にとって、情報収集への莫大な投資を時間内に処理して効果的な情報をフィードバックできない場合、それは単なる損失ではありません。ビッグデータの時代は、人間のデータ制御能力に新たな課題をもたらし、人々がより深く包括的な洞察を得るための前例のないスペースと可能性を提供していると言えます。 

3シーン

ビッグデータはすべての人生の歩みに適用されています、 

ビッグデータはどこにでもあります。ビッグデータは、金融、自動車、ケータリング、テレコミュニケーション、エネルギー、体力、娯楽などのさまざまな業界で使用されており、社会のあらゆる歩みがビッグデータの足跡に統合されています。

  • 製造業では、製品の故障診断と予測、技術プロセスの分析、生産プロセスの改善、生産プロセスでのエネルギー消費の最適化、産業サプライチェーンの分析と最適化、生産計画とスケジューリングなど、産業ビッグデータを使用して製造レベルを改善します。
  • 金融業界では、ビッグデータは、高頻度取引、社会的感情分析、信用リスク分析の3つの主要な金融革新分野で主要な役割を果たします。
  • 自動車業界では、ビッグデータとモノのインターネット技術を使用した無人自動車が近い将来、私たちの日常生活に登場します。
  • インターネット業界は、ビッグデータテクノロジーを利用して、顧客の行動を分析し、製品の推奨事項とターゲットを絞った広告を実行できます。
  • 通信業界では、ビッグデータ技術を使用して、顧客のグリッド外分析を実現し、顧客のグリッド外傾向をタイムリーに把握し、顧客維持策を導入します。
  • エネルギー業界では、スマートグリッドの開発により、電力会社は大量のユーザー電力消費情報を習得し、ビッグデータテクノロジーを使用してユーザー電力消費パターンを分析し、グリッド運用を改善し、電力需要応答システムを合理的に設計し、グリッド運用の安全性を確保できます。
  • 物流業界では、ビッグデータを使用して、物流ネットワークを最適化し、物流効率を向上させ、物流コストを削減します。
  • 都市管理では、ビッグデータを使用して、高度な交通、環境モニタリング、都市計画、インテリジェントセキュリティを実現できます。
  • 生物医学とビッグデータは、流行予測、スマートな医療、健康管理の実現に役立つと同時に、DNAの解釈や生命の秘密の理解にも役立ちます。
  • スポーツエンターテインメント、ビッグデータは、チームのトレーニング、撮影する映画やテレビの決定、ゲームの結果の予測に役立ちます。
  • セキュリティの分野では、政府はビッグデータテクノロジーを使用して強力な国家安全保障保護システムを構築でき、企業はビッグデータを使用してサイバー攻撃を防御でき、警察はビッグデータを使用して犯罪を防止できます。
  • 個人の生活、ビッグデータは個人の生活にも適用できます。個人に関連付けられた「個人のビッグデータ」を使用して、個人の生活と行動の習慣を分析し、より思慮深く個人に合わせたサービスを提供できます。

ビッグデータの価値はそれをはるかに超えており、すべての人生の流れにビッグデータが浸透することで、社会的な生産と生活が大きく促進され、将来的に大きな影響が及ぶでしょう。

4つのビッグデータポジション

  1. データアナリスト
    とは、関連するビジネスに精通しており、データ分析フレームワークの構築、関連する分析ツールと基本的な分析方法の習得と使用、データの収集、並べ替え、分析の実施、およびデータ分析の結論に基づく販売管理業務のガイダンスを提供する人を指します。意見を分析します。
  2. データアーキテクトデータアーキテクト
    は、要件分析、プラットフォームの選択、技術アーキテクチャの設計、アプリケーションの設計と開発、テスト、展開を含む、Hadoopソリューションのライフサイクル全体をガイドします。MapReduceジョブを作成し、ジョブフローを管理してデータの計算を完了する方法を深く理解し、Hadoopによって提供される一般的なアルゴリズムを使用でき、Yarn、HBase、Hive、Pigなどの重要なコンポーネントなど、Hadoopエコシステム全体のコンポーネントに精通している必要があります。プラットフォームの監視および補助操作と保守システムの開発。
  3. Big Data Engineer Big DataEngineer
    は、大規模な生データ(スクリプト、Webページの取得、APIの呼び出し、SQLクエリの記述などを含む)を収集して処理します。構造化されていないデータを分析に適した形式に処理し、分析を実行します。ビジネス上の意思決定のニーズとプロジェクト分析。
  4. データウェアハウスマネージャーデータウェアハウスマネージャー
    は、情報管理戦略の指定と実装、情報管理ソリューションの調整と管理、複数のプロジェクトスコープ、計画と優先順位付けの取り決め、データアウトソーシング、移動、品質、設計などのウェアハウスのさまざまな側面の管理を行います。実装。
  5. データベースマネージャー
    は、データベースツールとサービスの有効性を向上させます。すべてのデータが法的要件に準拠していることを確認します。情報が保護およびバックアップされていることを確認します。定期的なレポートを作成します。データベースのパフォーマンスを監視します。使用するテクノロジーを改善します。新しいデータベースを確立します。データエントリを確認します手順、トラブルシューティング。
  6. ビジネスインテリジェンスアナリストは
    、ツール、レポート、またはメタデータの機能強化に関する情報を広め、テストを実施または調整して、インテリジェンスの定義が要件と一致していることを確認します。ビジネスインテリジェンスツールを使用して、既存および潜在的な顧客を特定または監視します。現在のビジネスでは、トレンドデータを使用して、アクションの推奨事項をサポートし、ビジネスインテリジェンスツール、データベース、ダッシュボード、システムまたはメソッドを維持または更新し、ユーザートラフィックのビジネスインテリジェンスをタイムリーに管理できます。

5つの主要な概念

5.1コンセプト

ビッグデータとは、特定の時間枠内で従来のソフトウェアツールを使用して取得、管理、処理できないデータのコレクションを指します。これは、大規模な高成長率と高成長率であり、より強力な意思決定能力、洞察の発見、プロセス最適化機能を備えた新しい処理モデルが必要です。多様な情報資産。

ビッグデータは通常、企業が作成した大量の非構造化データと半構造化データを表すために使用されます。これらのデータを分析のためにリレーショナルデータベースにダウンロードすると、多くの時間と費用がかかります。

  • 大量のデータを処理するためのコアテクノロジー:
    1. 大量のデータの保存:
      1. 分散ファイルシステムストレージ
        1. HDFS
    2. 大量データの運用処理:
      1. 分散コンピューティングフレームワーク
        1. MapReduce、spark、flink等
  • 配布されるもの
    1. 多くのマシンにファイルを保存することです。実際、ファイルを保存するのに役立つシステムがあります。このシステムはディレクトリで構成されているようです(つまり、統合されたパスで構成されていますが、パスはマシン上の実際のパスです)。無関係)、ファイルがファイルシステムの特定のパスに配置されると、ファイルを異なるファイルブロックに分割し、異なるマシンに保存します(ユーザーは内部のストレージ情報を知りません)。 、これは分散ストレージです
  • ストレージフレームワーク
    1. 分散ファイルストレージシステムHDFS
    2. 分散データベースシステムHBASE ElasticSearch mongDB
  • 計算フレームワーク
    1. 解決すべき中心的な問題は、並列計算のためにユーザーの計算ロジックを複数のマシンに分散させることです
    2. MapReduceコンピューティングフレームワーク-Hadoopのコンピューティングフレームワーク
    3. Sparkコンピューティングフレームワーク-オフラインバッチ処理、リアルタイムストリーミングを実行
    4. Stromコンピューティングフレームワーク-リアルタイムストリーミング
  • 補助ツール
    1. Hive-データウェアハウスツール:SQLを受け入れ、SQLステートメントを解析してMapReduceまたはSparkプログラム処理を実行できます
    2. Flume-データ収集
    3. Sqoop-データ移行
    4. ElasticSearch-分散データ検索エンジン

5,2コアテクノロジー

1)Sqoop:Sqoopは、Hadoop、Hive、および従来のデータベース(MySql)の間でデータを転送するために主に使用されるオープンソースツールです。リレーショナルデータベース(例:MySQL、Oracleなど)からデータをインポートできます。 HadoopのHDFSに、HDFSデータをリレーショナルデータベースにインポートすることもできます。

2)Flume:Flumeは、Clouderaが提供する大規模なログの収集、集約、および送信のための高可用性で信頼性の高い分散システムです。Flumeは、データを収集するためにログシステムのさまざまなデータ送信者のカスタマイズをサポートし、同時に、Flumeは、データを簡単に処理し、さまざまなデータ受信者に書き込む機能を提供します(カスタマイズ可能)。

3)Kafka:Kafkaは、次の特性を持つ高スループット分散パブリッシュ/サブスクライブメッセージングシステムです。

(1)O(1)ディスクデータ構造を介してメッセージの永続性を提供するこの構造は、テラバイトのメッセージストレージでも、長期的に安定したパフォーマンスを維持できます。

(2)高スループット:非常に一般的なハードウェアでも、Kafkaは1秒あたり数百万のメッセージをサポートできます。

(3)Kafkaサーバーとコンシューマーマシンクラスターによるメッセージのパーティション分割をサポートします。

(4)Hadoop並列データ読み込みをサポートします。

4)ストーム:ストームは、「継続的な計算」に使用され、データストリームに対して継続的なクエリを実行し、計算中に結果をストリームの形式でユーザーに出力します。

5)Spark:Sparkは現在、最も人気のあるオープンソースのビッグデータメモリコンピューティングフレームワークです。Hadoopに保存されているビッグデータに基づいて計算できます。

6)Oozie:Oozieは、Hdoopジョブ(ジョブ)を管理するためのワークフロースケジューリング管理システムです。

7)Hbase:HBaseは、分散型の列指向のオープンソースデータベースです。HBaseは一般的なリレーショナルデータベースとは異なり、非構造化データストレージに適したデータベースです。nosql sqlだけでなく

8)Hive:HiveはHadoopに基づくデータウェアハウスツールで、構造化データファイルをデータベーステーブルにマップでき、SQLステートメントをMapReduceタスクに変換して実行できる単純なSQLクエリ関数を提供します。その利点は、学習コストが低く、単純なMapReduce統計をSQLのようなステートメントですばやく実現できること、特別なMapReduceアプリケーションを開発する必要がないこと、そしてデータウェアハウスの統計分析に非常に適しています。

10)R言語:Rは、統計分析と描画のための言語と操作環境です。Rは、GNUシステムに属するフリー、フリー、オープンソースのソフトウェアであり、統計計算および統計グラフィックスのための優れたツールです。

11)Mahout:Apache Mahoutは、スケーラブルな機械学習およびデータマイニングライブラリです。

12)ZooKeeper:Zookeeperは、Googleのチャビーのオープンソース実装です。大規模分散システム向けの信頼性の高い調整システムであり、構成の保守、ネームサービス、分散同期、グループサービスなどの機能を提供します。ZooKeeperの目標は、複雑でエラーが発生しやすい主要なサービスをカプセル化し、シンプルで使いやすいインターフェースと、高性能で安定した機能を備えたシステムをユーザーに提供することです。

おすすめ

転載: blog.csdn.net/qq_37933018/article/details/107173898
おすすめ