1Hadoopとは
Hadoopは、Apache Foundationによって開発された分散システムインフラストラクチャであり、主に大容量データの保存と分析および大容量データの計算の問題を解決します。大まかに言えば、Hadoopは通常、より広い概念であるHadoopエコシステムを指します。
2Hadoopの開発履歴
Luceneフレームワークは、Doug Cuttingによって作成されたオープンソースソフトウェアです。Javaコードで記述され、Googleと同様の全文検索機能を実装します。完全なクエリエンジンとインデックス作成エンジンを含む全文検索エンジンアーキテクチャを提供します。
2001年の終わりに、LuceneはApacheFoundationのサブプロジェクトになりました。
大量のデータを使用するシナリオの場合、LuceneはGoogleと同じ問題に直面します。つまり、データの保存が難しく、取得速度が遅いということです。
これらの問題に対するGoogleのソリューションであるNutchのマイクロバージョンを学び、模倣します。
GoogleはHadoopのアイデアの源であると言えます(ビッグデータに関するGoogleの3つの論文:GFS => HDFS、Map-Redure => MR、Big Table => HBase)。
2003年から2004年にかけて、GoogleはいくつかのGFSとMap Reduceのアイデアの詳細を開示しました。これに基づいて、Doug Cuttingなどは2年間の空き時間を使用して、DFSとMapReduceメカニズムを実装し、Nutchのパフォーマンスを急上昇させました。
2005年、HadoopはLuceneのサブプロジェクトNutchの一部としてApacheFoundationに正式に導入されました。
2006年3月、MapReduceとNutch Distributed File System(NDFS)がHadoopプロジェクトに組み込まれ、Hadoopが正式に誕生し、ビッグデータの時代が到来しました。
名前はダグカッティングの息子のおもちゃの象に由来します。
3Hadoopの3つのメジャーリリースバージョン
Hadoopの3つのメジャーリリースバージョン:Apache、Cloudera、Hortonworks。
Apacheバージョンの元の(最も基本的な)バージョンは、入門学習に最適です。
Clouderaは、大規模なインターネット企業でより多く使用されています。
Hortonworksのドキュメントの方が優れています。
3.1 Apache Hadoop
公式ウェブサイトアドレス:http://hadoop.apache.org/releases.html
ダウンロードリンク:https://archive.apache.org/dist/hadoop/common/
3.2 Cloudera Hadoop
公式ウェブサイトアドレス:https://www.cloudera.com/downloads/cdh/5-10-0.html
ダウンロードリンク:http://archive-primary.cloudera.com/cdh5/cdh/5/
(1)2008年に設立されたClouderaは、Hadoopを商用化した最初の企業であり、主にサポート、コンサルティングサービス、トレーニングを含むHadoop商用ソリューションをパートナーに提供しました。
(2)Hadoopの創設者であるDougCuttingも2009年にClouderaに参加しました。Cloudera製品は主にCDH、Cloudera Manager、Clouderaサポートです
(3)CDHはClouderaのHadoopディストリビューションであり、完全にオープンソースであり、Apache Hadoopよりも互換性、セキュリティ、および安定性が向上しています。
(4)Cloudera Managerは、クラスターのソフトウェア配布、管理、および監視プラットフォームです。Hadoopクラスターは数時間以内にデプロイでき、クラスターのノードとサービスをリアルタイムで監視できます。ClouderaサポートはHadoopのテクニカルサポートです。
(5)Clouderaの価格はノードあたり年間4000米ドルです。Clouderaは、ビッグデータをリアルタイムで処理できるImpalaプロジェクトを開発し、貢献しました。
3.3 Hortonworks Hadoop
公式ウェブサイトアドレス:https://hortonworks.com/products/data-center/hdp/
ダウンロードリンク:https://hortonworks.com/downloads/#data-platform
(1)2011年に設立されたHortonworksは、Yahooとシリコンバレーのベンチャーキャピタル会社BenchmarkCapitalの合弁会社です。
(2)設立当初、同社はHadoopを専門とする約25〜30人のYahooエンジニアを採用し、上記のエンジニア全員が2005年にYahooのHadoop開発を支援し始め、Hadoopのコードの80%を提供しました。
(3)Yahooのエンジニアリング担当副社長でYahooのHadoop開発チームの責任者であるEricBaldeschwielerがHortonworksのCEOになります。
(4)Hortonworksの主な製品はHortonworks Data Platform(HDP)で、これも100%オープンソース製品です。HDPには、一般的なプロジェクトに加えて、オープンソースのインストールおよび管理システムであるAmbariも含まれています。
(5)メタデータ管理システムであるHCatalogは、FacebookのオープンソースHiveに統合されました。Stinger of Hortonworksは、Hiveプロジェクトを開拓し、大幅に最適化しました。Hortonworksは、開始するための非常に優れた、使いやすいサンドボックスを提供します。
(6)Hortonworksは多くの拡張機能を開発し、それらをコアバックボーンに送信しました。これにより、ApacheHadoopをWindowServerやWindowsAzureなどのMicrosoftWindowsプラットフォームでローカルに実行できるようになります。料金はクラスターに基づいており、10ノードごとに年間12,500ドルです。
Hadoopの4つの利点(4つの高さ)
高い信頼性:Hadoopは最下層にデータの複数のコピーを維持するため、特定のコンピューティング要素またはHadoopのストレージに障害が発生しても、データが失われることはありません。
高いスケーラビリティ:クラスタ間でタスクデータを割り当てます。これにより、数千のノードを簡単に拡張できます。
効率:MapReduceのアイデアの下で、Hadoopは並行して動作し、タスク処理を高速化します。
高いフォールトトレランス:実行に失敗したタスクを自動的に再配布できます。