写在前面的话

入行大数据两年多以来，有很多感想，简单说几句。与其他所有计算机相关行业的学习类似，大数据的学习同样是在网络上找资料，看视频，然后自己练手摸索，遇到问题找博客找平台大佬提问题。

绝大部分时间都是一个人的负重前行，更不必说，网络上的资料良莠不齐，既要去伪存真，又要相互映照，不同观点不同阐述，不同理解之间产生的碰撞和疑问虽说难能可贵，但确实是学习过程中不小的障碍，概念原理该理解到什么层次，什么地方应该着重分析，什么地方可以简单了解，都是新手难以把握的部分。

有感于此，笔者决心带着最近几年的浅薄经验，重新以初学者的心态审视大数据的一些概念，框架，和原理，参照教材和行业书籍，带着自己的理解，整理成系列文章，既是给自己理清头绪，也希望能给新手一些小小的帮助，就心满意足了。

1.大数据时代

1.1数据和信息

首先，对大数据最简单的理解，就是大量的数据，那么大量的数据从何而来？我们知道，数据就是我们通过观察，实验或者计算得到的结果。与信息不同，离散的数据几乎没有任何实用价值。

而信息是一个宏观的概念，泛指人类社会传播的一切内容。1948年，数学家香农指出：信息是用来消除随机不确定性的东西。科学的信息概念可以概括如下：

信息是对客观世界中各种事物的运动状态和变化的反映，是客观事物之间相互联系和相互作用的表征，表现的是客观事物运动状态和变化的实质内容。

1.2数据产生方式

可以说，数据产生方式的变革，孕育了大数据这一概念。总体来说，人类社会产生数据的方式大致经历了如下三个阶段：运营式系统阶段、用户原创内容阶段和感知式系统阶段。

运营式系统阶段

人类社会最早大规模管理和使用数据，是从数据库的诞生开始的。超市销售系统，永航交易系统，股市交易系统等等，都建立在数据库的基础上。这个阶段显著的特征就是，数据的产生方式是被动的，只有实际的企业业务发生时，才产生新的数据并记录到数据库。

用户原创内容阶段

随着互联网的出现和发展，数据传播更加快捷，Web 1.0时代，主要以门户网站为代表，强调内容的组织与提供，大量上网用户本身并不参与内容的产生。而Web 2.0时代，随着移动互联网和智能手机的普及，包括各大自服务平台的搭建，上网用户逐渐成为平台内容的生产者，数据量开始急剧增长。

感知式系统阶段

感知式系统阶段与物联网的发展紧密相关，物联网中包含各种各样的传感器和摄像头，这些设备每时每刻都在产生大量的数据，与Web 2.0时代的人工数据产生方式相比，物联网中的自动数据产生方式，将在短时间内生成更密集、更大量的数据。

1.3大数据的概念

至此，对大数据这个概念，我们终于能够给出一个比较合适的解释，或者说大数据的四个特点：数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）和价值密度低（Value）。

数据量大（Volume）

根据著名咨询机构互联网数据中心（Internet Data Center,IDC）做出的估测，人类社会产生的数据一直都在以每年50%的速度增长，也就是说，每两年就增加一倍多，这被称为“大数据摩尔定律”。这意味着，人类在最近两年产生的数据量相当于之前产生的全部数据量之和。2020年，全球总共拥有约44ZB的数据量，与2010年相比，数据量将增长近40倍。

数据类型繁多（Variety）

大数据的数据来源众多，科学研究、企业应用和Web应用等都在源源不断地生成新的类型繁多的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等，都呈现出“井喷式”增长，所涉及的数据量十分巨大，已经从TB级别跃升到PB级别。各行各业，每时每刻，都在生成各种不同类型的数据。

处理速度快（Velocity）

大数据时代的数据产生速度非常快。在Web 2.0应用领域，在1分钟内，新浪微博可以产生2万条微博，Twitter可以产生10万条推文，苹果可以产生下载4.7万次应用的数据，淘宝可以卖出6万件商品，百度可以产生90万次搜索查询的数据。大名鼎鼎的大型强子对撞机（Large Hadron Collider,LHC），大约每秒产生6亿次的碰撞，每秒生成约700 MB的数据，同时有成千上万台计算机在分析这些碰撞。

价值密度低（Value）

大数据时代的数据产生速度非常快。在Web 2.0应用领域，在1分钟内，新浪微博可以产生2万条微博，Twitter可以产生10万条推文，苹果可以产生下载4.7万次应用的数据，淘宝可以卖出6万件商品，百度可以产生90万次搜索查询的数据。大名鼎鼎的大型强子对撞机（Large Hadron Collider,LHC），大约每秒产生6亿次的碰撞，每秒生成约700 MB的数据，同时有成千上万台计算机在分析这些碰撞。[1]

出现了巨量的数据，人们自然而然想要利用这些数据来改造世界。信息科技需要解决信息存储，传输和信息处理三个核心问题，这也是大数据要面对的主要问题。存储设备的容量在不断增加，CPU的计算能力也在不断提升，但是另一方面越顶级的CPU，越大的存储容量就意味着越高昂的价格，消耗的财力是另一方面，单台机器的性能不管多么优越，总有其性能瓶颈，分布式技术应运而生。

1.4分布式的概念

分布式技术为海量数据的存储，传输和运算提供了可能。广泛的说，相比于传统的单机架构，分布式架构解决了互联网应用的两大难题：高并发和高可用，这两大难点也正是单机架构的缺点：性能瓶颈和单点故障。针对海量数据，分布式存储将数据存储到成百上千台服务器上，满足了海量数据的存储需求；分布式计算提供了快速数据处理的能力

[1]林子雨. 大数据技术原理与应用[M].人民邮电出版社:大数据创新人才培养系列, 201701.301.

[2]Zhiwu Wang. God-Of-BigData[Z], -项目系列文章

大数据Re1