大数据概述(二)

一.大数据就是Hadoop?

一提到大数据,首先想到的就是Hadoop,Hadoop是由Apache基金会开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序。而大数据就是Hadoop么?开源技术Hadoop可以提供相对廉价的分布式的存储系统,通过MadReduce的技术,进行并发、高效能的计算。大数据引擎基本上完成是存储和计算,但真正的存储计算结果还要与传统的业务系统和其他应用来使用。

IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理卜晓军认为,如今要做的决策来自于可确认的信息,而世界产生的信息是各个维度,若不分析数据就只是存在数据库里的数据,只有分析了才能发现数据的内在价值。大数据是原始的数据,数据的展示角度不同,其中有些数据是不为所用的,需要对数据进行质量的分析或是真实性的分析,最重要的是分析的结果要准确。

二.什么是Hadoop?

大数据目前分为四大块:大数据技术、大数据工程、大数据科学和大数据应用。其中云计算是属于大数据技术的范畴,是一种通过Internet以服务 的方式提供动态可伸缩的虚拟化的资源的计算模式。那么这种计算模式如何实现呢,Hadoop的来临解决了这个问题,Hadoop是Apache(阿帕切) 的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,在这个架构下组织的成员HDFS(Hadoop分布式文件系统),MapReduce、 Hbase 、Zookeeper(一个针对大型分布式系统的可靠协调系统),hive(基于Hadoop的一个数据仓库工具)等。

大数据目前分为四大块:大数据技术、大数据工程、大数据科学和大数据应用。其中云计算是属于大数据技术的范畴,是一种通过Internet以服务 的方式提供动态可伸缩的虚拟化的资源的计算模式。那么这种计算模式如何实现呢,Hadoop的来临解决了这个问题,Hadoop是Apache(阿帕切) 的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,在这个架构下组织的成员HDFS(Hadoop分布式文件系统),MapReduce、 Hbase 、Zookeeper(一个针对大型分布式系统的可靠协调系统),hive(基于Hadoop的一个数据仓库工具)等。

下一章我们开始讲述分节:Hadoop的族群。

猜你喜欢

转载自www.cnblogs.com/zuozhesang/p/11568783.html
今日推荐