大数据和云计算

关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说，分别做一句话直白解释就是：云计算就是硬件资源的虚拟化；大数据就是海量数据的高效处理。

虽然上面的一句话解释不是非常的贴切，但是可以帮助你简单的理解二者的区别。另外，如果做一个更形象的解释，云计算相当于我们的计算机和操作系统，将大量的硬件资源虚拟化之后再进行分配使用，在云计算领域目前的老大应该算是Amazon，可以说为云计算提供了商业化的标准，另外值得关注的还有VMware（其实从这一点可以帮助你理解云计算和虚拟化的关系），开源的云平台最有活力的就是Openstack了；

大数据相当于海量数据的“数据库”，而且通观大数据领域的发展也能看出，当前的大数据处理一直在向着近似于传统数据库体验的方向发展，Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群，把传统而昂贵的并行计算等概念一下就拉到了我们的面前，但是其不适合数据分析人员使用（因为MapReduce开发复杂），所以PigLatin和Hive出现了（分别是Yahoo！和facebook发起的项目，说到这补充一下，在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献），为我们带来了类SQL的操作，到这里操作方式像SQL了，但是处理效率很慢，绝对和传统的数据库的处理效率有天壤之别，所以人们又在想怎样在大数据处理上不只是操作方式类SQL，而处理速度也能“类SQL”，Google为我们带来了Dremel/PowerDrill等技术，Cloudera（Hadoop商业化最强的公司，Hadoop之父cutting就在这里负责技术领导）的Impala也出现了。

整体来看，未来的趋势是，云计算作为计算资源的底层，支撑着上层的大数据处理，而大数据的发展趋势是，实时交互式的查询效率和分析能力，借用Google一篇技术论文中的话，“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗？

猜你喜欢