ビッグデータフレームワークのHadoopエコシステムのエピソード

1.1.1のHadoop:ビッグデータの課題に対応するために

ApacheのHadoopのビッグデータの課題に対応するためには、データ集約型の、高度な並列分散アプリケーションの実装を簡素化することもできます。世界中の企業、大学や他の組織は、数千台のコンピュータに分散こんなに早く分析し、大量のデータを保存するために、分散、タスクシートへのタスクのHadoop、Hadoopのを使用しています。そして大量のデータを格納するための安価な方法を用いて、安価な多数のコンピュータを使用してHadoopのは、拡張可能なメカニズム、高い信頼性を提供します。構造の複雑なデータ解析の多数が可能となるようにHadoopはまた、新規および改良された分析技術を提供します。

差の従来の方法で配布のHadoop。

まず分散ファイルシステム。

クラスタ上のデータの複数のバックアップ・コピーは、それによって信頼性と実用性を向上させることができます。データは、帯域幅のボトルネックを排除し、どのメモリ内で処理されている場合。

また、Hadoopのは、実装プロセスの複雑さを隠し、簡単なプログラミング方法を提供する分散しました。このように、Hadoopのは、次のような強力なデータ解析のメカニズムを、提供するために:

ストレージ容量- Hadoopのは、数千台のコンピュータとPBレベルのデータ上で動作するアプリケーションを可能にします。過去十年間では、コンピュータの専門家は、これらの高性能アプリケーションが安いだけ多数のコンピュータで一緒に扱うことができるスーパーコンピュータによって処理されている認識しています。クラスタでは、「小さな」コンピュータの集約・コンピューティング・パワーの何百ものはスーパーコンピュータの複数のコンピューティングパワーとすることができ、価格は安いです。Hadoopのは、企業の範囲内のクラスタ内のマシンの数千人が、価格を買う余裕ができるよりも多くを使用し、それは巨大なストレージ容量と処理能力を提供しています。

分散処理と高速データアクセス-効率的なデータ格納能力を提供しながら、Hadoopのクラスタは、また、データへの高速アクセスを提供します。アプリケーションは、コンピュータ・クラスタとの間に並列に実行することは困難である前に、Hadoopが表示されます。共有メモリデータ、I / O性能要求を作成するとき、これはクラスタモデルからです。Hadoopの持つデータを処理するために、高性能な課題の多くを軽減します。また、Hadoopのデータ処理アプリケーションは、通常、さらに、I / O負荷を軽減、(ディスクシーク動作)データのランダムアクセスを回避する規則的な方法です。

信頼性、フェイルオーバーとスケーラビリティ-過去に、クラスタマシンの信頼性の問題を解決することは困難で並列アプリケーション。が単一のマシンの信頼性は非常に高いが、クラスターが増加すると、故障が増加する確率。クラスタ上のノードの数千人が、このルーチン障害が頻繁に発生します。Hadoopのユニークなデザインとモードの実施例ので、同じ障害でも同様の結果が生成されます。したがって、Hadoopのは、これらの障害を監視することができ、かつ異なるノードの使用は、タスクを再実行します。また、Hadoopの良いスケーラビリティは、クラスタに複数のサーバのシームレスな統合を実現し、データを保存するためにそれらを使用して、プログラムの実行します。

ほとんどのユーザーのために、Hadoopを、Hadoopが明確に分けられた運用計画やインフラ整備の最も重要な機能です。以下のためにそれらのユーザーは、複雑なものに単純な分散コンピューティングを作り、Hadoopのインフラストラクチャの複雑さを隠し、事業運営に注力し、使いやすくするためのプラットフォームを提供します。

1.1.2科学的データのビジネスコミュニティ

Hadoopのの頻繁に大規模なデータを格納して処理する機能と、「科学的データ」フック。この用語は、1960年代にピーター・ノールによって提案されたが、ごく最近注目を集めていたが。雪に覆われた「データサイエンス」の教授ジェフリー・スタントンドイツとアメリカの大学は以下のように定義された「収集、分析、可視化、大量の情報の保全と管理の新たな分野に焦点を当て。」

通常は「科学的データは、」商用ビジネス分析で使用される用語であり、そして「ビッグデータ」分野の実践は非常に異なっています。データ科学では、既存のビジネスモデルを研究することによって、ビジネス・アナリストは、ビジネスを強化します。

データ・サイエンスの目標は、データからのデータの本当の意味を抽出することです。数学、統計分析、パターン認識、機械学習、データウェアハウスおよび高性能コンピューティングに基づくデータ科学者がデータを分析して傾向を発見するために、物事を動作するように、収集した情報に基づいて新たなサービスを開発します。

過去数年間で、多くのビジネスアナリストやデータベースプログラミングは、データ科学者になっています。彼らのHadoopエコシステム、(のような:ハイブHadoopのクエリツールまたはリアルタイム)高度なSQLツールの使用情報に基づいたビジネス上の意思決定を行うためのデータ分析。

だけでなく、「大きなデータベース。」

で、深さ、後でこの本の中でのHadoopを説明するが、その前に、ツールを使用するのが唯一のデータアナリスト--Hadoop、このようなエラーを排除できるようになります。それはデータベースクエリに精通した者のためのより低い閾値を提供するので、(そのようなリアルタイムのHadoopとHiveのクエリなど)のHadoopツールは、その一部の人はそれが唯一のHadoopデータベース中心のツールだと思います。

あなたは、その後、データ分析の範囲を超えて問題を解決し、本当の問題は、「科学的データ」に関連しようとしている場合に加えて、SQLデータマイニング技術は、明らかに、もはや実用的になります。例えば、ほとんどの問題を解決するために、我々は、線形代数や他の複雑な数学的なアプリケーションを使用する必要がある、しかし、これらの問題はいずれもSQLに良い解決策になることはできません。

これは、Hadoopのツールを使用すると、このような問題を解決するための最良の方法である、ということを意味しています。HadoopのMapReduceのプログラミングモデルを使用することは、科学的データの問題を解決するだけでなく、大幅にアプリケーションの展開を作成し、企業のプロセスを簡素化するだけでなく。これを実行するためのさまざまな方法を通して - あなたは、多くの場合、ソフトウェア開発のスキルを持っている開発者が必要とするツールの一部を使用することができます。例えば、アプリケーションベースOozieコーディネート(詳細は後ほどこの本の中でOozieを紹介します)を使用して、あなたは、複数のアプリケーションを結集するプロセスを簡素化することができ、かつ複数のツールから、非常に柔軟なリンクの作業。本書では、実用的なアプリケーション、およびときの企業内のこれらのツールのHadoopの使用が表示されます。

現在、Hadoopの開発、主に、より良いサポートデータサイエンティストするためです。Hadoopのは、高いスケーラビリティと並列に実行する能力を有する強力なコンピューティング・プラットフォームを提供する、強力な科学的データおよびエンタープライズアプリケーションの新世代のために非常に適しています。そして、Hadoopのもスケーラブルな分散ストレージとのMapReduceプログラミングモデルを提供します。エンタープライズ業界は、主に以下の分野では、ビジネス関連の問題を解決するためのHadoopを使っています:

銀行やクレジットカード会社の不正強化検出のためのテスト-企業は、トランザクション処理における不正行為を検出するためにHadoopを使用しています。Hadoopの、大規模なクラスタ、データ分析の確立を使用することにより、銀行、金融取引の過程で使用され、解析モデルは、それによって、リアルタイム不正検出を提供します。

ソーシャルメディアの市場分析 -現在のHadoopブランド管理、マーケティング活動とブランド保護を使用している企業。インターネットは、このようなブログ、フォーラム、ニュース、つぶやき、ソーシャルメディアデータなどのリソースのすべての種類、いっぱいです。企業は、より自分のビジネスを理解するためには、固有のビジネスモデルを探索したり、将来の動向を予測するために、Hadoopの監視、収集、情報を収集し、抽出し、自社の製品やサービスをまとめただけでなく、競合他社の情報を使用しています。

小売ショッピングパターン分析 -小売業界では、製品が店舗を最も売れているかを判断するために、店舗の場所やその周辺の人口のショッピングパターンを使用して、Hadoopの分析。

トラフィックパターン認識都市開発 -都市開発は、多くの場合、道路網の拡大の必要性を判断するためにトラフィックパターンに依存する必要があります。トラフィックモデルを模索するために、異なる時間に一日のトラフィックを監視することにより、都市プランナーは、トラフィックのボトルネックを判断することができます。あなたはピーク時の交通渋滞を避けるために、街やレーンを増やす必要があるかどうかを判断するには。

コンテンツの最適化やコンテンツの参加 -企業はますます異なるデバイス上で、異なるフォーマットで提示されたコンテンツを、最適化することに焦点を当てます。そのため、多くのメディア企業は、異なるフォーマットのコンテンツを大量に処理する必要があります。そのため、コンテンツがフィードバックし、改善する前に計画モードに関与しなければなりません。

ネットワーク分析と調停 -トランザクションデータ、ネットワーク・パフォーマンス・データ、基地局データ、デバイスデータ、および背景データ、大規模なデータのリアルタイム分析の他の形態のために、企業は、運用コストを削減するユーザーエクスペリエンスを向上させることができます。

大量のデータ転送のために - 1100万ニューヨーク・タイムズの記事(1851年から1980年)PDFファイルに変換するには、これらの記事のスキャンされた画像は、新聞によって得られます。使用Hadoopの技術は、この新聞は1.5TBのPDFに24時間、4TBスキャン紙文書内とすることができます。

同様の例は数多くあります。企業は徐々に、より良い戦略的な意思決定を行うために、データ分析のためのHadoopを使用しています。すべてのすべてで、科学的データは、ビジネスの世界に入りました。

だけでなく、大企業のデータ・ツールについて

ビジネスのため、ここでの例のほとんどが、だけでなく、Hadoopのは、広く科学界や公共企業で使用されています。

科学技術振興財団が実施した最近の研究は、医学研究者は、ビッグデータ分析は、(治療中例えば、アップルの創業者スティーブ・ジョブズ)の治療効果を向上させるためには、がん患者の情報を分析するために使用することができることを示していると指摘しました。警察は、それによって犯罪率を減らし、時間と場所を発生する可能性のある犯罪を予測するために、ビッグデータツールを使用しています。同じ調査ではまた、エネルギー部門の職員は、ビッグデータツール、分析およびエネルギーグリッドの障害に関連する潜在的な損失の利点を取っていることを示しました。

効率を向上させる、大規模なデータモデルや動向の分析を通じて、より良い意思決定を行うための新しい方法を見つけることができます。

高度の記事を読んでお勧めします

40 +すべてここにビッグデータ開発[W]チュートリアルの年俸!

ゼロベースのビッグデータクイックスタートチュートリアル

Javaの基礎コース

チュートリアルをWebベースのフロントエンド開発

ビッグデータのエンジニアは、7の概念を理解する必要があります

クラウドコンピューティングの未来とビッグデータファイブ動向

すぐに大規模なデータの独自の知識を構築する方法

おすすめ

転載: blog.csdn.net/chengxvsyu/article/details/92430852