Hadoop:
广义:以apache hadoop软件为主的生态圈(hive、zookeeper、spark、hbase等)
狭义:apache hadoop软件
这些组件的官网的网址一般都是 组件.apache.org这种格式,如下:
hadoop.apache.org
hive.apache.org
spark.apache.org
apache.org 可以看到所有的。
hadoop软件:
1.x 企业不用
2.x 主流
3.x 没有企业敢用
a.需要自己去探索去采坑
b.很多公司都是CDH5.x部署大数据环境(市场额度估计60%,cloudera公司出的软件) (www.cloudera.com)
底层是hadoop2.6.0 ,它会在这个基础上进行很多bug的升级。现在很多用的是2.6.0-cdh5.7.0
2.6.0-cdh5.7.0 不等价于 apache hadoop2.6.0
hadoop软件:
hdfs:存储 分布式文件系统
mapreduce:计算 作业job1 job2... 需要编码 一般用java 但是企业不用(因为开发难度高 代码量大 计算慢)
yarn:资源(CPU memory)和作业调度
其中作业job1、job2...是由yarn来做资源调度的,要用多少cpu、多少内存、在哪个节点跑等这些是由yarn来调度的。
本次用的是;2.6.0-cdh5.7.0
apache hadoop: hadoop.apache.org
cdh hadoop: http://archive.cloudera.com/cdh5/cdh/5/
进去后ctrl + f 搜索hadoop-2.6.0-cdh5.7.0,单击进去就是Apache Hadoop 2.6.0-cdh5.7.0网站,这是2.x的网站。
继续下一个,可以看到:
很多新的东西都在官网上:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/,要经常查看。