都要说大数据很火，但是你知道他中的Hadoop是什么吗

大数据解决四大核心问题：

1、数据的存储（Big Data Storage），海量数据需要处理和分析，但前提是要进行有效的存储。Hadoop的诞生突破了传统数据文件系统的单机模式。HDFS使得数据可以跨越不同的机器与设备，并且用一个路径去管理不同平台上的数据。

2、数据的计算（Data Calculation），在数据有效存储的基础上，对数据的统计和分析本质上就是数据的计算。在大数据领域常见的计算工具有MapReduce、Spark等。

3、数据的查询（Consensus Data），对大数据进行有效管理的核心指标是数据查询技术。其中NoSQL (Not Only SQL)应用较为广泛，能较有效解决数据的随机查询，其中就主要包括Hbase等。从本质而言，依旧是Hadoop模式下的数据查询。

4、数据的挖掘（Data mining），Hive数据仓库为数据的挖掘提供了基础，通过分类、预测、相关性分析来建立模型进行模式识别、机器学习从而构建专家系统。

Hadoop之父

他是Lucene、Nutch 、Hadoop等项目的发起人。是他，把高深莫测的搜索技术形成产品，贡献给普通大众；还是他，打造了在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者（普罗米修斯盗火造福人类），他就是Doug Cutting。

hadoop概述

Hadoop是项目的总称。主要是由HDFS和MapReduce组成。HDFS是Google File System（GFS）的开源实现。MapReduce是Google MapReduce的开源实现。

Hadoop的诞生突破了传统数据文件系统的单机模式。使得数据可以跨越不同的机器与设备，并且用一个路径去管理不同平台上的数据。

MapReduce的计算模型分为Map和Reduce两个过程。在日常经验里，我们统计数据需要分类，分类越细、参与统计的人数越多，计算的时间就越短，这就是Map的形象比喻，在大数据计算中，成百上千台机器同时读取目标文件的各个部分，然后对每个部分的统计量进行计算，Map就是负责这一工作的；而Reduce就是对分类计数之后的合计，是大数据计算的第二阶段。可见，数据的计算过程就是在HDFS基础上进行分类汇总。

HDFS把节点分成两类：NameNode和DataNode。NameNode是唯一的，程序与之通信，然后从DataNode上存取文件。这些操作是透明的，与普通的文件系统API没有区别。

MapReduce则是JobTracker节点为主，分配工作以及负责和用户程序通信。

有需要的请联系我

http://www.cgpwyj.cn/
http://www.peacemind.com.cn/
http://www.tasknet.com.cn/
http://www.metroworld.com.cn/
http://www.cngodo.cn/
http://www.gzrdbp.cn/
http://www.dnapt.cn/
http://www.zgxxyp.cn/
http://www.sjjdvr.cn/
http://www.sujinkeji.cn/
http://www.zsjxbd.cn/
http://www.yesgas.cn/
http://www.quickpass.sh.cn/
http://www.jspcrm.cn/
http://www.yjdwpt.cn/
http://www.henanwulian.cn/
http://www.hhrshh.cn/
http://www.gpgold.cn/
http://www.jingzhuiyou.cn/