簡単な要約:Hadoopの大規模なデータストレージと分散コンピューティングオープンソースのフレームワークに対応するため、Java言語を開発するApacheの組織で使用されます。
Hadoopの原点
2003-2004、GoogleはNutchの性能が舞い上がるように、2年DFSおよびMapReduceの仕組みを実現するために余暇を使用ダグ・カッティング、触発され、GFSとMapReduceのアイデアの詳細を発表しました。その後、ヤフー恩赦ダグGuttingとそのプロジェクト。
2005年には、Hadoopのは、Apache財団のNutchのLuceneのサブプロジェクトの一環として正式に導入しました。
2006年2月には、完全なスタンドアロンのソフトウェアに分離され、命名のHadoop
Hadoopの名は頭文字が、言葉のうち、コインではありません。Hadoopが名前のダグ・カッティングぬいぐるみ象の息子の父親です。
Hadoopのの成長
Lucene-> Nutch-> Hadoopの
要約すると、Hadoopのは、Googleの三の大論文の発祥
GFS:Googleの分散ファイルシステムのファイルシステムGoogle
のMapReduce:GoogleのオープンソースのMapReduce分散並列コンピューティングフレームワークの
BigTableの:大規模分散データベース
間の関係の進化
GFS - > HDFS
GoogleのMapReduceの- > HadoopのMapReduceの
BigTableの- >のHBase
Hadoopの開発の歴史
Hadoopの記念品
2004 -最初のダグ・カッティングのバージョン(今HDFSとMapReduceのと呼ばれる)とマイク・カファレラが始まりました。
年12月2005から20のノード上の新たな枠組みへのNutchの移行、Hadoopの安定した動作。
2006年1月-ダグ・カッティングはヤフーに参加しました。
2006年2月- ApacheのHadoopのプロジェクトが正式のMapReduceとHDFSの自主開発をサポートするために発足しました。
2006年2月- Yahooのグリッド・コンピューティング・チームは、Hadoopが使用しています。
2006年4月-標準ソート(ノードあたり10ギガバイト)は、188のノード47.9時間で実行されています。
2006年5月には- YahooのHadoopの研究では、300ノードのクラスタを確立しました。
2006年5月-標準ソートの実行42時間500のノード上(ハードウェア構成は、4月に比べて優れています)。
年11月2006 - 600ノードへの研究クラスター。
2006年12月-標準ソートの実行20個のノード、100個のノード3.3時間、5.2時間500個のノード、900個のノード7.8時間で1.8時間。
2007年1月- 900研究クラスタノードに到達します。
2007年4月-リサーチクラスターは2千のクラスタノードに到達します。
2008年4月-世界最速の1TBのデータは、900のノード209秒で使用ソーティングを獲得します。
年7月2008 - 4000にYahooのテストノード
2008年9月- ハイブHadoopのサブプロジェクトがあることを
2008年11月- Googleが1TBをソートするプログラムの68秒とのMapReduceのを発表しました。
2008年10月-一日あたりの負荷データ10TBのための研究クラスター。
2008 - はしご-淘宝網は、研究へのHadoopベースのシステムを置きます。およそラダー9.3PB、1100機、一日あたりのプロセス18000のジョブ、500 TBのスキャンデータの総容量。
2009年3月24,000マシンの合計--17クラスタは。
2009年3月- Clouderaのは、CDH(ApacheのHadoopの含めるとClouderaの者Dsitribution)打ち上げ
59秒ヤフー以内に3400に((1400個のノード以上)のデータのソート100 TBを毎分、ソート500ギガバイトを獲得し、173分以内にする- 2009萬年4月にノード)。
2009年5月には-ヤフーのチームは、ちょうど62秒でデータの1つのTBをソートするためにHadoopを使用しています。
2009年7月- HadoopのHadoopのコア・プロジェクトが改名された共通;
2009年7月- 独立したサブプロジェクトのHadoopプロジェクトとしてのMapReduceとHadoopの分散ファイルシステム(HDFS)。
2009年7月- アブロとChukwaは新しいHadoopのサブプロジェクトになります。
2009年9月-アジア・リンクHadoopのBIチームのフォローアップ調査が始まった
2009年12月-アジア-Linkは、オレンジ色のクラウド戦略を作り、我々は、Hadoopの勉強を始め
、トップレベルのApacheプロジェクトとなり、Hadoopのプロジェクトからアブロ- 2010インディアン5越を。
2010年5月- HadoopのプロジェクトからのHBaseは、トップレベルのApacheプロジェクトになります。
2010年5月- IBMは、基本版とEnterprise Editionを含む--InfoSphereのHadoopベースのビッグデータ・アナリティクス・ソフトウェア・BigInsightsを、提供します。
2010年9月-のHadoopからハイブ(フェイスブック)は、トップレベルのApacheプロジェクトになります。
2010年9月-のHadoopのうち豚は、トップレベルのApacheプロジェクトになります。
2011年1月- のHadoopのうちのZooKeeperは、トップレベルのApacheプロジェクトになります。
2011年3月- ApacheのHadoopのは、メディア・ガーディアンイノベーション賞を得ました。
2011年3月-プラットフォームコンピューティングは、そのシンフォニーソフトウェアでのHadoopのMapReduce APIのサポートを発表しました。
MAPRの技術を導入分散ファイルシステムとApache HadoopのMapReduceのためのエンジン--MapR配布- 2011年5月。
HCatalog 1.0リリース- 2011年5月。データのクリーンアップおよびアーカイブツールを作るHortonworks、HCatalogが提案した2010年3月にプロジェクト主に主にHDFSのボトルネックを解決するために、メタデータのデータストレージの問題を解決するために使用、それはステータス情報データを格納するための場所を提供し、容易に取り扱います。
2011年4月- SGI(Silicon Graphicsの国際)は、HadoopのSGIラックマウント型とCloudRackサーバ製品ラインに基づいた最適なソリューションを提供しています。
それは、データ分析のために成長している顧客の需要を満たすため、オープンソースのデータ解析ソフトウェアの使用を加速するのに役立つEMCのオープンソースのHadoopソリューションに基づいた新しいデータセンター設備の立ち上げと顧客--GreenPlum HD、 - 2011ことがあります。EMC Greenplumは、オープンソースのデータウェアハウスの会社の2010年7月買収です。
2011年5月- Engenioの取得後、NetAppのE5400ストレージシステム製品は、Hadoopのアプリケーションと連携して立ち上げました。
2011年6月- (会社の名前がある前に、ストーンスムーズ)はCalxeda会社はCalxedaサーバの今後のARMチップ設計支援システムに基づいて行われますチームで10社のソフトウェア企業で構成される、「パイオニアのアクション」を立ち上げ。そして、低消費電力サーバ技術のHadoopを提供します。
2011年6月-データ統合ベンダーインフォマティカは、製品がHadoopのをサポートしながら生産今日のビジネスやソーシャルメディアで大量のデータを処理するように設計された、同社の主力製品をリリースしました。
2011年7月-ヤフーとシリコンバレーのベンチャーキャピタル会社のベンチマークキャピタル(信頼性)のHadoopをより強固にするために設計されたHortonworks会社を、作成、およびビジネスユーザーがより簡単にHadoopをインストール、管理および使用することができます。
2011年8月- Clouderaのは、パートナーエコシステムを利益のために計画を発表-ハードウェアベンダー、ソフトウェアベンダーおよびシステムインテグレータのためのエコシステムを作成するためのHadoopにデータより深い洞察を使用する方法を一緒に探索することができます。
2011年8月-デルとClouderaのHadoopのソリューションが共同で--Cloudera企業を立ち上げました。Clouderaのエンタープライズ・ベースのDell PowerEdge C2100ラックサーバとDellのPowerConnect 6248イーサネットスイッチ
Hadoopのの4つの特徴(メリット)
- 容量拡張(スケーラブル):Hadoopのコンピュータクラスタと完全なコンピューティングタスクで利用可能なデータに配分され、これらのクラスタは、ノードの数千の拡張を容易にするために使用することができます。
- 低コスト(経済):Hadoopのデータ処理を分散並びに非常に低コストであるサーバクラスタからなる通常の安価なマシンによる。
- 高い効率(効率):同時データにより、Hadoopの動的平行を非常に速くなるように、ノード間でデータを移動させることができます。
- 信頼性(Rellable):自動的にデータの複数のコピーを維持することができ、かつ自動的に障害コンピューティングタスクの後に(再デプロイ) - 展開を再度することができます。だから、機能のHadoopの基礎は信頼に値するデータビットを格納して処理します。