【若泽大数据实战第八天】hadoop入门介绍

Hadoop:

广义:以apache hadoop软件为主的生态圈(hive、zookeeper、spark、hbase等)

狭义:apache hadoop软件

这些组件的官网的网址一般都是  组件.apache.org这种格式,如下:

hadoop.apache.org
hive.apache.org
spark.apache.org

apache.org    可以看到所有的。

hadoop软件:
1.x    企业不用
2.x    主流  
3.x 没有企业敢用 
          a.需要自己去探索去采坑 
          b.很多公司都是CDH5.x部署大数据环境(市场额度估计60%,cloudera公司出的软件) (www.cloudera.com)
              底层是hadoop2.6.0 ,它会在这个基础上进行很多bug的升级。现在很多用的是2.6.0-cdh5.7.0
              2.6.0-cdh5.7.0 不等价于 apache hadoop2.6.0 

hadoop软件: 
hdfs:存储 分布式文件系统
mapreduce:计算     作业job1 job2...  需要编码 一般用java 但是企业不用(因为开发难度高 代码量大 计算慢)
yarn:资源(CPU memory)和作业调度

其中作业job1、job2...是由yarn来做资源调度的,要用多少cpu、多少内存、在哪个节点跑等这些是由yarn来调度的。

本次用的是;2.6.0-cdh5.7.0

apache hadoop: hadoop.apache.org
cdh hadoop:  http://archive.cloudera.com/cdh5/cdh/5/

进去后ctrl + f  搜索hadoop-2.6.0-cdh5.7.0,单击进去就是Apache Hadoop 2.6.0-cdh5.7.0网站,这是2.x的网站。

继续下一个,可以看到:

很多新的东西都在官网上:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/,要经常查看。

猜你喜欢

转载自blog.csdn.net/liweihope/article/details/87886322