Hadoop詳細ドキュメント(2)Hadoopとは(詳細な説明ビデオ付き)

公式サイト:http : //hadoop.apache.org/

無料のビデオチュートリアル  https://www.51doit.com/  またはWeChat 17710299606のブロガーにお問い合わせください

1 Hadoopとは

Apache Hadoopソフトウェアライブラリは、単純なプログラミングモデルを使用して、コンピュータークラスター全体で大規模なデータセットの分散処理を可能にするフレームワークです。1台のサーバーから数千台のマシンまで拡張できるように設計されており、各マシンはローカルコンピューティングとストレージを提供しますライブラリ自体は、ハードウェアに依存して高可用性を提供するようには設計されていませんが、アプリケーションレイヤーで障害を検出して処理するように設計されているため、コンピュータークラスターの上に高可用性サービスを提供でき、各コンピューターに障害が発生しやすくなります。

ビッグデータストレージとビッグデータ分析という 2つの主要な問題を解決しますつまり、Hadoopの2つのコア:HDFSとMapReduceです。

 2 Hadoopの開発履歴

2002年から2004年にかけて、インターネットバブルの第1ラウンドがちょうど崩壊し、多くのインターネット開業医が失業しました。私たちの「主人公」であるダグカッティングも例外ではありません。彼は技術的な記事を書き、家族をサポートするための原稿料を稼ぐことができるだけです。しかし、ダグカッティングは孤独になりたくはありません。夢と未来への願いとともに、彼の親友であるマイクカファレラとともに、オープンソースの検索エンジンNutchを開発し、このシステムが何億ものWebページ検索をサポートするのに1年かかりました。しかし、当時のWebページの数はこのサイズをはるかに超えていたため、2つは改善を続け、桁違いにサポートされるWebページの数を増やしたいと考えました。

2003年と2004年に、GoogleはそれぞれGFSとMapreduceに関する2つの論文を発表しました。ダグ・カッティングとマイク・カファレラは、これは彼らのアイデアとは異なり、より完璧であり、手動操作とメンテナンスの状態から完全に分離され、自動化を実現したことを発見しました。

一連の慎重な検討と詳細な要約の後、ドッグカットは2006年に事業を開始し、その後、何度かひねりを加えてYahooの会社に加わりました(Nutchの一部も正式に導入されました)。彼の息子のおもちゃを大きなおもちゃとして使用しました。象の名前Hadoopがこのアイテムに名前を付けます。

システムがYahooに入った後、プロジェクトは徐々に発展し成熟しました。1つ目はクラスタの規模です。最初の数十台のマシンから数千台のノードをサポートできるマシンまで、途中で多くのエンジニアリング作業が行われました。その後、検索以外のビジネス開発により、Yahooは徐々に広告システムを変更しましたデータマイニング関連の作業もHadoopに移行され、Hadoopシステムがさらに成熟します。

2007年、ニューヨークタイムズはHadoopを使用して100台のAmazonの仮想マシンサーバー上で4TBの画像データを変換し、Hadoopeに対する人々の印象をさらに深めました。

2008年、Googleのエンジニアは、当時のHadoopを運用のためにクラスターに配置することは非常に困難であることを発見し、彼と数人の良き友人が商用のHadoop会社を設立しました。 Cloudera社。同じ年に、Facebookチームは、Hadoopプログラムの記述方法を知らない人が多いことを発見しましたが、SQLに精通しているため、SQLをHadoopのMapreduceプログラムに変換するためのHive on Hadoopというソフトウェアを作成しました。

2011年、YahooはHadoopチームを分離し、Hadoop関連のサービスを提供する子会社Hortonworksを設立しました。

3つのhadoop機能

(1)高い信頼性:Hadoopの最下層では、データを異なるマシンの複数のコピーに保存して、データの安全性と信頼性を確保します。(安全で信頼できるデータ、安全で信頼できる計算)

(2)高いスケーラビリティ:ストレージhdpクラスターのストレージ容量とコンピューティングリソースが不十分な場合、マシンノードを水平方向に拡張して、拡張を実現し、コンピューティングパワーを強化できます。()ストレージ容量とコンピューティング容量のスケーラビリティ)

(3)高効率:MapReduceのアイデアの下で、操作はノード間で動的に移動でき、作業は分散されて並列処理されるため、大量のデータを転送することは非常に効率的です。

(4)高いフォールトトレランス:Hadoopは、データの複数のコピーを自動的に保存できます。データを格納するノードがダウンすると、コピーを自動的にコピーして、クラスター内のコピー数を維持し、失敗したタスクを自動的に再分散します。

(5)低コスト:Hadoopは安価なマシンで実行し、並行して作業して、1つの目的で高効率、安全性、および効率を達成できます。

4 hadoopの構成

Hadoopは主に、実際の運用で大量のデータを単一のノードに格納できないという問題と、大量のデータを迅速かつ効率的に計算する方法を解決します

その中で、HDFS分散ファイルシステムは大容量データストレージの問題を解決します

MapReduceは、大量のデータを使用した分散コンピューティングの問題を解決します

Yarnはクラスターリソースのスケジューリングと分散、分散タスクモニタリングを実行します

1 HDFS:(Hadoop Distribute File System)分散ファイルシステム、大容量データストレージソリューション

2 MapReduce:Hadoopの分散コンピューティングプログラミングフレームワーク

3糸:分散リソーススケジューリングプラットフォームおよびタスク監視プラットフォーム

4コモンズ:HADOOPの基礎となるテクニカルサポート

Hadoop生態図は次のとおりです

 

おすすめ

転載: blog.csdn.net/qq_37933018/article/details/107174053