大規模なデータを研究するには、Hadoopのを知っている必要があります

私たちは、最初にその利益の必要があります。物事の大規模、複雑性の高いようなこの多次元データは、良いプラットフォームをサポートするために存在しなければなりません。

Hadoopの何ですか

Hadoopの分析とビッグデータを処理するためのソフトウェアプラットフォームである、オープンソースソフトウェアは、計算のためのデータの洪水の間で分散から構成されるコンピュータ・クラスタの大多数に実装Appach Java言語で囲まれています。

Hadoopのコア設計のフレームワークです:HDFSとMapReduce.HDFSは、膨大な量のデータのためのストレージを提供し、MapReduceのは、データの膨大な量の計算のために用意されています。

ビッグデータのHadoop 次の簡単な治療への流れの参照は、図ことを理解することができるデータ処理後のHadoopクラスタの結果により得られました:。

HDFS:Hadoopの分散ファイルシステムは、Hadoopのファイルシステムを配布しました。

デフォルト・データ・ファイルは、分散メモリ64Mの大ブロックに分割される。ファイル以下のData1が異なるマシンに分散冗長3に反映されているクラスタ内の3台のマシンに分割されます。

MapReduceの:Hadoopのは、各入力のために作成され、その結果は、キーと値の形式で出力されますキーの値によって責任のHadoopをマッピングし、この分割のレコード(記録)で次の作業をターンの契約で、タスクの呼び出しマップ計算を分割入力として出力マップを終えた後、出力を下げHDFSに保存されたジョブ全体の出力のタスクを、減らします。

Hadoopクラスタ主成分名前ノード、データノード、セカンダリ名前ノード、JobTracker、TaskTracker組成物下記のように:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks.Secondary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.TaskTracker负责某一个map或者reduce任务

作者强力推荐阅读文章:

大数据工程师必须掌握开源工具汇总

大数据高级工程师教你如何读懂大数据核心技术

顶级大数据工程师需要掌握的技能

大数据、机器学习和人工智能未来发展的8个因素

おすすめ

転載: blog.csdn.net/sdddddddddddg/article/details/91402247