何がそれにHadoop --- Hadoopのスタート?

簡単な要約:Hadoopの大規模なデータストレージと分散コンピューティングオープンソースのフレームワークに対応するため、Java言語を開発するApacheの組織で使用されます。

Hadoopの原点

2003-2004、GoogleはNutchの性能が舞い上がるように、2年DFSおよびMapReduceの仕組みを実現するために余暇を使用ダグ・カッティング、触発され、GFSとMapReduceのアイデアの詳細を発表しました。その後、ヤフー恩赦ダグGuttingとそのプロジェクト。 
2005年には、Hadoopのは、Apache財団のNutchのLuceneのサブプロジェクトの一環として正式に導入しました。 
2006年2月には、完全なスタンドアロンのソフトウェアに分離され、命名のHadoop 
Hadoopの名は頭文字が、言葉のうち、コインではありません。Hadoopが名前のダグ・カッティングぬいぐるみ象の息子の父親です。 
Hadoopのの成長 
Lucene-> Nutch-> Hadoopの

要約すると、Hadoopのは、Googleの三の大論文の発祥 
GFS:Googleの分散ファイルシステムのファイルシステムGoogle 
のMapReduce:GoogleのオープンソースのMapReduce分散並列コンピューティングフレームワークの 
BigTableの:大規模分散データベース

間の関係の進化 
GFS - > HDFS 
GoogleのMapReduceの- > HadoopのMapReduceの 
BigTableの- >のHBase

Hadoopの開発の歴史

Hadoopの記念品 
2004 -最初のダグ・カッティングのバージョン(今HDFSとMapReduceのと呼ばれる)とマイク・カファレラが始まりました。 
年12月2005から20のノード上の新たな枠組みへのNutchの移行、Hadoopの安定した動作。 
2006年1月-ダグ・カッティングはヤフーに参加しました。 
2006年2月- ApacheのHadoopのプロジェクトが正式のMapReduceとHDFSの自主開発をサポートするために発足しました。 
2006年2月- Yahooのグリッド・コンピューティング・チームは、Hadoopが使用しています。 
2006年4月-標準ソート(ノードあたり10ギガバイト)は、188のノード47.9時間で実行されています。 
2006年5月には- YahooのHadoopの研究では、300ノードのクラスタを確立しました。 
2006年5月-標準ソートの実行42時間500のノード上(ハードウェア構成は、4月に比べて優れています)。 
年11月2006 - 600ノードへの研究クラスター。 
2006年12月-標準ソートの実行20個のノード、100個のノード3.3時間、5.2時間500個のノード、900個のノード7.8時間で1.8時間。 
2007年1月- 900研究クラスタノードに到達します。 
2007年4月-リサーチクラスターは2千のクラスタノードに到達します。 
2008年4月-世界最速の1TBのデータは、900のノード209秒で使用ソーティングを獲得します。 
年7月2008 - 4000にYahooのテストノード 
2008年9月-  ハイブHadoopのサブプロジェクトがあることを 
2008年11月- Googleが1TBをソートするプログラムの68秒とのMapReduceのを発表しました。 
2008年10月-一日あたりの負荷データ10TBのための研究クラスター。 
2008 -  はしご-淘宝網は、研究へのHadoopベースのシステムを置きますおよそラダー9.3PB、1100機、一日あたりのプロセス18000のジョブ、500 TBのスキャンデータの総容量。 
2009年3月24,000マシンの合計--17クラスタは。 
2009年3月-  Clouderaのは、CDH(ApacheのHadoopの含めるとClouderaの者Dsitribution)打ち上げ 
59秒ヤフー以内に3400に((1400個のノード以上)のデータのソート100 TBを毎分、ソート500ギガバイトを獲得し、173分以内にする- 2009萬年4月にノード)。 
2009年5月には-ヤフーのチームは、ちょうど62秒でデータの1つのTBをソートするためにHadoopを使用しています。 
2009年7月-  HadoopのHadoopのコア・プロジェクトが改名された共通; 
2009年7月-  独立したサブプロジェクトのHadoopプロジェクトとしてのMapReduceとHadoopの分散ファイルシステム(HDFS)。 
2009年7月-  アブロとChukwaは新しいHadoopのサブプロジェクトになります。 
2009年9月-アジア・リンクHadoopのBIチームのフォローアップ調査が始まった 
2009年12月-アジア-Linkは、オレンジ色のクラウド戦略を作り、我々は、Hadoopの勉強を始め 
、トップレベルのApacheプロジェクトとなり、Hadoopのプロジェクトからアブロ- 2010インディアン5越を。 
2010年5月- HadoopのプロジェクトからのHBaseは、トップレベルのApacheプロジェクトになります。 
2010年5月- IBMは、基本版とEnterprise Editionを含む--InfoSphereのHadoopベースのビッグデータ・アナリティクス・ソフトウェア・BigInsightsを、提供します。 
2010年9月-のHadoopからハイブ(フェイスブック)は、トップレベルのApacheプロジェクトになります。 
2010年9月-のHadoopのうち豚は、トップレベルのApacheプロジェクトになります。 
2011年1月-  のHadoopのうちのZooKeeperは、トップレベルのApacheプロジェクトになります。 
2011年3月- ApacheのHadoopのは、メディア・ガーディアンイノベーション賞を得ました。 
2011年3月-プラットフォームコンピューティングは、そのシンフォニーソフトウェアでのHadoopのMapReduce APIのサポートを発表しました。 
MAPRの技術を導入分散ファイルシステムとApache HadoopのMapReduceのためのエンジン--MapR配布- 2011年5月。 
HCatalog 1.0リリース- 2011年5月。データのクリーンアップおよびアーカイブツールを作るHortonworks、HCatalogが提案した2010年3月にプロジェクト主に主にHDFSのボトルネックを解決するために、メタデータのデータストレージの問題を解決するために使用、それはステータス情報データを格納するための場所を提供し、容易に取り扱います。 
2011年4月- SGI(Silicon Graphicsの国際)は、HadoopのSGIラックマウント型とCloudRackサーバ製品ラインに基づいた最適なソリューションを提供しています。 
それは、データ分析のために成長している顧客の需要を満たすため、オープンソースのデータ解析ソフトウェアの使用を加速するのに役立つEMCのオープンソースのHadoopソリューションに基づいた新しいデータセンター設備の立ち上げと顧客--GreenPlum HD、 - 2011ことがあります。EMC Greenplumは、オープンソースのデータウェアハウスの会社の2010年7月買収です。 
2011年5月- Engenioの取得後、NetAppのE5400ストレージシステム製品は、Hadoopのアプリケーションと連携して立ち上げました。 
2011年6月- (会社の名前がある前に、ストーンスムーズ)はCalxeda会社はCalxedaサーバの今後のARMチップ設計支援システムに基づいて行われますチームで10社のソフトウェア企業で構成される、「パイオニアのアクション」を立ち上げ。そして、低消費電力サーバ技術のHadoopを提供します。 
2011年6月-データ統合ベンダーインフォマティカは、製品がHadoopのをサポートしながら生産今日のビジネスやソーシャルメディアで大量のデータを処理するように設計された、同社の主力製品をリリースしました。 
2011年7月-ヤフーとシリコンバレーのベンチャーキャピタル会社のベンチマークキャピタル(信頼性)のHadoopをより強固にするために設計されたHortonworks会社を、作成、およびビジネスユーザーがより簡単にHadoopをインストール、管理および使用することができます。 
2011年8月- Clouderaのは、パートナーエコシステムを利益のために計画を発表-ハードウェアベンダー、ソフトウェアベンダーおよびシステムインテグレータのためのエコシステムを作成するためのHadoopにデータより深い洞察を使用する方法を一緒に探索することができます。 
2011年8月-デルとClouderaのHadoopのソリューションが共同で--Cloudera企業を立ち上げました。Clouderaのエンタープライズ・ベースのDell PowerEdge C2100ラックサーバとDellのPowerConnect 6248イーサネットスイッチ

Hadoopのの4つの特徴(メリット)

    1. 容量拡張(スケーラブル):Hadoopのコンピュータクラスタと完全なコンピューティングタスクで利用可能なデータに配分され、これらのクラスタは、ノードの数千の​​拡張を容易にするために使用することができます。
    2. 低コスト(経済):Hadoopのデータ処理を分散並びに非常に低コストであるサーバクラスタからなる通常の安価なマシンによる。
    3. 高い効率(効率):同時データにより、Hadoopの動的平行を非常に速くなるように、ノード間でデータを移動させることができます。
    4. 信頼性(Rellable):自動的にデータの複数のコピーを維持することができ、かつ自動的に障害コンピューティングタスクの後に(再デプロイ) - 展開を再度することができます。だから、機能のHadoopの基礎は信頼に値するデータビットを格納して処理します。

おすすめ

転載: www.cnblogs.com/shun7man/p/11521257.html