約12ビッグデータフレームワークHadoopの事実

今日では、Apache Hadoopのは皆に知られても不思議ではありません。ダグはそれからYahooの検索技術を切断、分散コンピュータ環境を作成するための、このオープンソース・ソフトウェア・ライブラリを開発し、ゾウは1日、それは最初に「ビッグデータ」を占有することを考えているだろう時間のために彼の息子、という名前の人形技術椅子のそれ。

 

Hadoopの大きなアップホットとともにデータが、私はそこにあると信じていますが、まだ多くのユーザーはそれを理解していません。TDWIリサーチ業界アナリスト、フィリップRussomのディレクター、の名前でTDWIソリューションサミット先週公開「Hadoopの12:00事実を、」基調講演次は本質の内容をまとめたものである、あなたはHadoopの詳細を知りたい持っています助けます。

 

1は、Hadoopのは、複数の製品で構成されています

 

人々は多くの場合、Hadoopのの話を、とすると見て単一の製品と考えるが、実際にそれが構成の異なる複数の製品で構成されています。

 

Russomは言った:「Hadoopのは、オープンソース製品のシリーズの組み合わせで、これらの製品は、Apache Software Foundationのプロジェクトです。」

 

Hadoopの、MapReduceの人々の言及は一緒に入れされる傾向にあるが、実際には、MapReduceのとHDFSのように、Hadoopのもの基本です。

 

2は、Apache Hadoopのはオープンソースですが、独自のベンダーが製品にHadoopを提供します

 

IBM、Clouderaの、およびEMC Greenplumは、その他のメーカーは独自の特殊なリリースのHadoopを起動できるようにHadoopは、無料でダウンロードできるオープンソース技術に属しているため。

 

これらの特別な分布は、一般的に、このような上級管理職のサポートツールおよび関連保守サービスなど、いくつかの追加機能を持っています。いくつかは一蹴ことがあります。オープンソースコミュニティは無料ですので、なぜ私たちは、そのサービスのために支払う必要がありますRussomは、HDFSのこれらのバージョンは、特に、企業のITシステムは比較的成熟したユーザーとなっている、いくつかのIT部門にとってより適切であることを説明しました?。

 

3、Hadoopの生態系ではなく、製品であります

 

Hadoopが共同で開発し、オープンソースコミュニティと様々なメーカーによって促進されます。具体的には、Hadoopのリレーショナル強いの製品構造のメーカー。

 

Russomは言った:「プラットフォームが報告された、データ統合プラットフォームが更新プラットフォーム、Hadoopのためのさまざまなインタフェースを提供することにも例外ではありません。」

 

4、HDFSファイルシステムではなく、データベース管理システム

 

最も耐え難いRussomは、人々はしばしば2を混同していることです。これは、データセットはHDFSが利用できない1つの非常に重要な特性データ管理システムで管理することができます。

 

データベース管理システムは、我々は、それは多くの場合、Hadoopの中に構造化データを扱っているデータへのインデックスのランダムアクセスを照会することにより達成することができ、そのようなデータ型を処理しません。

 

5、ハイブSQLに似た、それが標準SQLではありません

 

Hadoopのは、SQL --ApacheハイブとHiveQLをSQLに似た言語を使用しますが、ないので、従来のデータ収集ツールのほとんどは、比較的頭痛であるSQLベースのビジネス、です。

 

Russomは言った:「私は頻繁に人々が言うのを聞くが、それは基本的なツールは、SQLの問題と互換性があります解決しない 『ハイブを学ぶことは非常に簡単です、ラインで直接ハイブを学びます。』。」

 

Russomは互換性が唯一の短期的な問題であると思うが、Hadoopのの人気を妨げました。

 

6、HadoopのMapReduceのと相互に関係しますが、相互依存的ではありません

 

MapReduceは早くもグーグルが開発したHDFSの出現以前のように立ち上げました。また、このようなMAPRとしてクラスメーカーは、HDFSサポートなし広報MapReduceの機能の多様性となっています。

 

それにもかかわらず、Russomは、彼らが良い補完を持っていると考えています。ほとんどはHDFSの値に反映されているツール分散ファイルシステム上に積層されてもよいです。

 

7、MapReduceはなく分析自体よりも、分析のための制御を提供します

 

MapReduceはビッグデータ分析を助けることができる、ユニバーサル実行エンジンが駆動しています。手書き自動並列処理されたデータを読み取るコード、および単一のコレクションに結果をマッピングします。しかし、我々は明確にする必要があり、MapReduceの自体が分析作業を行っていません。

 

Russomは言った:「MapReduceのは関係なく、あなたは、非常に強力な、それらを並列化することができ、コードを書いたものMPPアーキテクチャのアップグレード版として見ることができません..」

 

8、Hadoopの意義は、データの量ではなく、ためにも、多様なデータではないだけです

 

一部の人々は、Hadoopのは、大量のデータ処理技術Hadoopのように分類が、実際の値は、多様なデータ処理の能力です。

 

Russomは言った:「ほとんどのデータ・ウェアハウスのためのHadoopの処理範囲は、例えば、完全に非構造化データ、およびより半構造用以下です。」

 

9、Hadoopの相補データウェアハウスであり、データ・ウェアハウスは、の代わりにはなりません

 

多様なデータタイプを管理するためのHadoop能力はどこでも演説を「データウェアハウスは死んでしまう」になりますが、Russomは論破されています。

 

彼は尋ねた:「IT分野では、どのように頻繁に人々はほとんどない技術を交換しません?。」

 

そのドメインのデータ・ウェアハウスのパフォーマンスにHadoopを追加するために、データウェアハウス・テクノロジーの役割を再生することができ、今でも傑出しています。スキーマのデータウェアハウスおよびその他のシステムは、ますます分散し、Hadoopのは、ここでその役割を果たしますに近づくようになりました。

 

10、Hadoopのは、単にウェブ解析ではありません

 

インターネットのHadoopの使用は非常に一般的であり、Russomは一部のため、それは分析の多くの種類を扱うことができるので、Hadoopの動向の人気を考えます。

 

Russomは、鉄道会社、ロボット及び小売の例を挙げました。鉄道会社は、事故を防ぐために、異常高温検出車を追跡するためにセンサーを使用することができます。

 

RussomのHadoopの見通しについて非常に楽観が、しかし、また、その人気はまだ数年かかると考えています。

 

11、非Hadoopのビッグデータは必ずしも利用できないではありません

 

ビッグデータとHadoopのは密接にリンクされている今、見てはいけない、Russomは「唯一」のHadoopは、ビッグデータではないと思いました。彼はとても上(HPが買収)などのTeradata、(SAPが買収)のSybase IQとのVerticaなどの他のベンダーの製品の数を、言及して。

 

また、出産のHadoopの不存在下で、いくつかの企業がビッグデータの研究を始めています。例えば、多くの年の通信業界は、詳細レコードが呼び出す前に。

 

12、Hadoopのは「フリーランチ」ではありません

 

Hadoopのは、オープンソース技術に属しているが、が、インストールソフトウェアの展開は、お金を使う必要があります。Russomが原因Hadoopの管理ツールやサポートサービスの欠如に、企業が使用中に容易に追加のコストにつながることができると言いました。また、それはプログラムを最適化していないので、我々は唯一のランタイム環境でプロの手書き入力コードを頼むことができ、これらの専門家はたくさんのお金を持っているために価格を支払います。

著者は強く記事を読んでお勧めします。

ビッグデータのエンジニアは、オープンソースツールの概要を習得しなければなりません

ビッグデータのシニアティーチ大きなデータコア技術を読むにどのように

トップビッグデータのエンジニアがスキルを習得する必要があります

8つの大きな要因データ、機械学習と将来の発展のための人工知能

おすすめ

転載: blog.csdn.net/sdddddddddddg/article/details/91348178