大数据Re1

写在前面的话

入行大数据两年多以来,有很多感想,简单说几句。与其他所有计算机相关行业的学习类似,大数据的学习同样是在网络上找资料,看视频,然后自己练手摸索,遇到问题找博客找平台大佬提问题。

绝大部分时间都是一个人的负重前行,更不必说,网络上的资料良莠不齐,既要去伪存真,又要相互映照,不同观点不同阐述,不同理解之间产生的碰撞和疑问虽说难能可贵,但确实是学习过程中不小的障碍,概念原理该理解到什么层次,什么地方应该着重分析,什么地方可以简单了解,都是新手难以把握的部分。

有感于此,笔者决心带着最近几年的浅薄经验,重新以初学者的心态审视大数据的一些概念,框架,和原理,参照教材和行业书籍,带着自己的理解,整理成系列文章,既是给自己理清头绪,也希望能给新手一些小小的帮助,就心满意足了。

1.大数据时代

1.1数据和信息

首先,对大数据最简单的理解,就是大量的数据,那么大量的数据从何而来?我们知道,数据就是我们通过观察,实验或者计算得到的结果。与信息不同,离散的数据几乎没有任何实用价值。

而信息是一个宏观的概念,泛指人类社会传播的一切内容。1948年,数学家香农指出:信息是用来消除随机不确定性的东西。科学的信息概念可以概括如下:

信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。

1.2数据产生方式

可以说,数据产生方式的变革,孕育了大数据这一概念。总体来说,人类社会产生数据的方式大致经历了如下三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。

  • 运营式系统阶段

    人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。超市销售系统,永航交易系统,股市交易系统等等,都建立在数据库的基础上。这个阶段显著的特征就是,数据的产生方式是被动的,只有实际的企业业务发生时,才产生新的数据并记录到数据库。

  • 用户原创内容阶段

    随着互联网的出现和发展,数据传播更加快捷,Web 1.0时代,主要以门户网站为代表,强调内容的组织与提供,大量上网用户本身并不参与内容的产生。而Web 2.0时代,随着移动互联网和智能手机的普及,包括各大自服务平台的搭建,上网用户逐渐成为平台内容的生产者,数据量开始急剧增长。

  • 感知式系统阶段

    感知式系统阶段与物联网的发展紧密相关,物联网中包含各种各样的传感器和摄像头,这些设备每时每刻都在产生大量的数据,与Web 2.0时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据。

1.3大数据的概念

至此,对大数据这个概念,我们终于能够给出一个比较合适的解释,或者说大数据的四个特点:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

  • 数据量大(Volume)

    根据著名咨询机构互联网数据中心(Internet Data Center,IDC)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,每两年就增加一倍多,这被称为“大数据摩尔定律”。这意味着,人类在最近两年产生的数据量相当于之前产生的全部数据量之和。2020年,全球总共拥有约44ZB的数据量,与2010年相比,数据量将增长近40倍。

  • 数据类型繁多(Variety)

    大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的类型繁多的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等,都呈现出“井喷式”增长,所涉及的数据量十分巨大,已经从TB级别跃升到PB级别。各行各业,每时每刻,都在生成各种不同类型的数据。

  • 处理速度快(Velocity)

    大数据时代的数据产生速度非常快。在Web 2.0应用领域,在1分钟内,新浪微博可以产生2万条微博,Twitter可以产生10万条推文,苹果可以产生下载4.7万次应用的数据,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询的数据。大名鼎鼎的大型强子对撞机(Large Hadron Collider,LHC),大约每秒产生6亿次的碰撞,每秒生成约700 MB的数据,同时有成千上万台计算机在分析这些碰撞。

  • 价值密度低(Value)

    大数据时代的数据产生速度非常快。在Web 2.0应用领域,在1分钟内,新浪微博可以产生2万条微博,Twitter可以产生10万条推文,苹果可以产生下载4.7万次应用的数据,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询的数据。大名鼎鼎的大型强子对撞机(Large Hadron Collider,LHC),大约每秒产生6亿次的碰撞,每秒生成约700 MB的数据,同时有成千上万台计算机在分析这些碰撞。[1]

出现了巨量的数据,人们自然而然想要利用这些数据来改造世界。信息科技需要解决信息存储,传输和信息处理三个核心问题,这也是大数据要面对的主要问题。存储设备的容量在不断增加,CPU的计算能力也在不断提升,但是另一方面越顶级的CPU,越大的存储容量就意味着越高昂的价格,消耗的财力是另一方面,单台机器的性能不管多么优越,总有其性能瓶颈,分布式技术应运而生。

1.4分布式的概念

分布式技术为海量数据的存储,传输和运算提供了可能。广泛的说,相比于传统的单机架构,分布式架构解决了互联网应用的两大难题:高并发和高可用,这两大难点也正是单机架构的缺点:性能瓶颈和单点故障。针对海量数据,分布式存储将数据存储到成百上千台服务器上,满足了海量数据的存储需求;分布式计算提供了快速数据处理的能力

[1]林子雨. 大数据技术原理与应用[M].人民邮电出版社:大数据创新人才培养系列, 201701.301.

[2]Zhiwu Wang. God-Of-BigData[Z], -项目系列文章

猜你喜欢

转载自blog.csdn.net/qq_60934240/article/details/127309365