ビッグデータフレームワークのHadoopエコシステムのエピソード

第一章ビッグデータとHadoopのエコシステム

この章の主な内容:

►は、ビッグデータの課題を理解します

►は、Hadoopのエコシステムを学習します

►は、Hadoopのディストリビューションを学び

使用のHadoopベースのエンタープライズアプリケーション►

あなたは、人々は、我々が「ビッグデータ」環境に住んでいる、言うのを聞くことがあります。今日の世界における技術主導型の開発は、コンピューティングパワーと電子機器の急速な成長はますます簡単にインターネットへのアクセス、ますます一般的である一方、送信され、これまでに多くのデータよりも収集されています。

エンタープライズデータは、驚くべき速さで生成されています。Facebookは一日あたりのデータのみ250 TBを収集します。トンプソンロイターニュース解析(トムソンロイターのニュース分析)に、総今2009 1ZB(百万PBに1ZB相当)に比べてデジタルデータの量と、2015年には3倍以上には7.9ZBに到達する可能性があることを示しました2020は35ZBに到達する可能性があります。他の調査機関はさらに高い予測を行っています。

企業が生成され、収集されたデータの量を増やすと、それらはデータ分析の重要性を認識し始めます。しかし、彼らは効果的に、自分が所有する大量の情報を管理しなければなりません。これは、新たな挑戦を作成:??彼らは増加しますので、どのように効率的にデータを分析するためにそれらをどのように処理するためにどのように大量のデータを格納することができ、そしてどのようにスケーラブルなソリューションを構築することを??

データ科学者や研究者は、ビッグデータの課題に直面するだけでなく。数年前、Google +での総会、コンピュータ出版社ティム・オライリーは、比較的少数の新しい正規のデータを生成したものであること、大量のデータを生成したアリステアCroll、」なし法律事務所の言葉を引用しましたUPSは ".......置き換えます 要するに、Crollは、あなたのビジネスはあなたが持っているデータを「理解」、またはあなたのビジネスは、自分のデータを「理解」の企業と競合することはできません場合を除き、言いたいです。

企業が実現した:ビッグデータとビジネスの競争は、状況認識が密接に生産性、科学と技術革​​新に関連して、巨大な利益を得ることができ、これらの大規模なデータを分析します。商用の競争がビッグデータ分析を駆動し、そうされているので、ほとんどの企業は、ビューのオライリーとCrollポイントを同意します。彼らは、今日のビジネスの生存率は、ビッグデータの課題を受け入れる能力の有無制御に応じて、プロセスを保存し、大量の情報を分析する能力に依存していることを信じています。

あなたはこの本を読めば、あなたはHadoopの、おなじみのApache Hadoopの、これらの課題に精通していると解決することができますどのような問題を知っているだろう。この章では、展望とビッグデータの課題、およびHadoopのエコシステムとそのコンポーネントの概要を説明します。これらのコンポーネントは、スケーラブルな分散型データ分析ソリューションを構築するために使用することができます。

1.1場合はビッグデータのHadoopの出会い

「人的資本」としての成功に不可欠な目に見えない、要因なので、大半の企業は、従業員が自分の最も貴重な資産であると考えています。国有企業「情報」 - 実際には、もう一つの重要な要因があります 情報の信頼性、情報性と情報アクセシビリティは、より良い意思決定を行うために企業を有効にする、企業情報の能力を高めることができます。

企業によって生成されたデジタル情報の多くを理解することは非常に困難です。IBMは、過去2年間で、世界のデータの90%を生産していることを指摘しました。ビジネスは、これらのデータの処理や保管には戦略的な資源になる可能性があり、収集されます。10年前、マイケルDaconta、レオObrst、とケビンT.Smith(インディアナポリス:ワイリー、2004年):言っで、「XMLの未来へのガイド、Webサービス、およびナレッジマネジメントセマンティックWeb」の本を書きましたモットー「唯一最善の情報を持つものは、情報を検索し、無敵することができ、最速の企業情報を活用できるようにする方法を知っています。」

知識は力です。問題は、より多くのデータ収集など、伝統的なデータベース・ツールを管理し、迅速にデータを処理しません、ということです。データの計り知れない可能性を理解することはできません効果的に理解できないデータとの間のデータリンクを使用することはできません、これは、ビジネス独自のデータに「溺れ」につながります。

過度に大規模なデータセットを記述するための「ビッグデータ」を持つ人々は、これらのデータセットは、一般的に対処するために、保管、管理、検索、および分析のプロセスで使用される従来のツールを使用することはできません。多数の大規模なデータ・ソースが存在する構成であってもよいし、非構造型であってもよく、大きなデータ、内部ルールおよびパターンの処理および分析により通知選択を行うために、見ることができます。

大量のデータから有用な情報を得るために、データ処理および分析のような大規模な量を格納する方法は?ビッグデータの課題は何ですか?

大規模データの分析、我々は収納スペースやスーパーコンピュータの処理能力の多くを必要とします。過去10年間で、研究者は、デジタル情報の増加に起因する問題を解決するための様々な方法を試してみました。まず、上記複数の記憶、処理能力、メモリに単一のコンピュータに焦点を当てるが、単一のコンピュータを分析する能力は、問題を解決できないことを見出しました。時間が経つにつれて、多くの組織は、(複数のコンピュータがタスクを分散)分散システムを実装しますが、データ分析ソリューションの分散システムは複雑で、エラーが発生しやすい、と十分にさえ速くなる傾向があります。

2002年、ダグ・カッティングや大量の情報を処理するためのNutchの(インデックスにウェブクローラの解決に焦点を当て、ウェブ検索エンジンのプロジェクトを検索)と呼ばれるプロジェクトのマイク・カファレラ開発。Nutchのプロジェクトを保存し、処理の問題を解決する過程で、彼らはページNutchの多数のためのデータの収集のための信頼性の高い、分散コンピューティング方法の必要性を実現しました。

一年後、GoogleはMapReduceのとGoogleファイルシステム(GFS)の論文を発表し、MapReduceは大規模なデータセットのプラットフォームを処理するために使用される分散プログラミングとアルゴリズムです。分散処理の見通しと分散ストレージクラスタ対応では、我々はHadoopの分散ファイルシステム(HDFS)とMapReduceのを知っているように開発された分散Nutchのプラットフォームを構築するための基礎として、これらの論文を切断し、Cafarellaとき。

2006年後には、Yahooが検索エンジンのインデックス情報の多数を確立する過程で闘争「ビッグデータ」の課題を経験し、Nutchのプロジェクトの見通しを参照して、ダグ・カッティングを雇って、すぐにその分散としてのHadoopを使用することにしましたアーキテクチャは、検索エンジンの問題を解決します。ヤフーは、Apache財団、その独立性を維持すると同時に、オープンソースプロジェクトのHadoop、Nutchのウェブクローラプロジェクトを形成し、ストレージおよび処理部Nutchのプロジェクトからストリッピング。その後まもなく、Yahooは、製品の様々なアプリケーションのHadoopの分析を使い始めました。ヤフーの検索事業は、より良いHadoopの技術を利用するために、単一の広告ユニットにマージするようにプラットフォームが、非常に有効です。

過去10年間では、Hadoopのは、それがもたらしたビッグデータの課題を解決するための最も人気のある汎用的なコンピューティング・プラットフォームへと進化し、検索エンジンからのプラットフォームに関連付けられています。これは、高速データ・ベースのアプリケーションの次世代の基盤となってきています。市場調査会社IDCは2016年までに、Hadoopのビッグデータ駆動型市場は$ 23億超えるだろうと予測しています。2008年にClouderaのHadoopのに焦点を当てた企業への最初の設立以来、Hadoopのベースのスタートアップ企業の数十は、ベンチャーキャピタルで数億ドルを誘致します。要するに、Hadoopのは、大規模なデータ分析に企業のための効果的な方法を提供します。

推奨読書の記事

40 +すべてここにビッグデータ開発[W]チュートリアルの年俸!

ゼロベースのビッグデータクイックスタートチュートリアル

Javaの基礎コース

チュートリアルをWebベースのフロントエンド開発

ビッグデータ時代6つの事を知っている必要があります

ビッグデータフレームワークHadoopのトップ10の神話

ビッグデータ開発エンジニア給与30Kの概要を体験?

我々は問題が発生したビッグデータフレームワークのHadoop

おすすめ

転載: blog.csdn.net/chengxvsyu/article/details/92430834