大数据全解:定义、价值及挑战

这些年,“大数据”一词已成为当下最热门的词汇之一。对于很多人来说,都不太理解什么是大数据?它比想象中复杂。大数据不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。更进一步来说,大数据是一种全新的思维方式和商业模式。

今天就让我们深入了解一下,到底什么是大数据。


webp

大数据的定义

首先,还是要重新审视大数据的定义。行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。

广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,让大家了解到目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!

■ 要做什么?——获取数据、存储数据、分析数据

■ 对谁做?——大容量数据

■ 目的是什么?——挖掘价值

大数据,到底有多大?

传统的个人电脑,处理的数据,是GB/TB级别。

■ 1 GB = 1024 MB (GB - gigabyte)

■ 1 TB = 1024 GB (TB - terabyte)

而大数据是什么级别呢?PB/EB级别。

■ 1 PB = 1024 TB (PB - petabyte)

■ 1 EB = 1024 PB (EB - exabyte)

只是看这几个字母的话,似乎不是很直观。

举个例子:

1TB,只需要一块硬盘可以存储。容量大约是20万张图片或20万首音乐,或者是671部小说。

1PB,需要大约2个机柜的存储设备。容量大约是2亿张图片或2亿首音乐。如果一个人不停地听这些音乐,可以听1900年。

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.3公里。如果摆放在机房里,大约需要21个标准篮球场,才能放得下。

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

EB还不是最大的。目前全人类的数据量,是ZB级。

而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。

1 ZB = 1024 EB (ZB - zettabyte)

大数据的特点4Vs

行业里对大数据的特点,概括为4个V。除了Volume(海量化)之外,剩下三个,分别是Variety、Velocity、Value。

Variety(多样化)

01

数据又分为结构化数据和非结构化数据。

从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。

大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。


webp

Velocity(时效性)

02

从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?

■ Email:2.04亿封被发出

■ Google:200万次搜索请求被提交

■ Youtube:2880分钟的视频被上传

■ Facebook:69.5万条状态被更新

■ 12306:1840张车票被卖出

■ ……

怎么样?是不是瞬息万变?

Value(价值密度)

03

大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。

大数据的价值

人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。大数据,究竟有什么价值?

早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。

■ 第一次浪潮:农业阶段,约1万年前开始

■ 第二次浪潮:工业阶段,17世纪末开始

■ 第三次浪潮:信息化阶段,20世纪50年代后期开始

进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。

2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。

如今,大数据应用开始走进我们的生活,影响我们的衣食住行。

之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。

归纳来说,大数据的价值主要来自于两个方面:

1. 帮助企业了解用户

大数据通过相关性分析,将客户和产品、服务进行关系串联。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。通过数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。

除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。


webp

2. 帮助企业了解自己

大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。

大数据的挑战

大数据时代下,大部分人对于信息安全的意识不够,对相关数据的使用不当,造成敏感、隐私数据的泄露,尤其是具有一定关联性的多组数据同时泄漏,引发的连锁反应会让问题加重。

大数据时代下信息安全面对极大的挑战,信息安全技术也面临很大的考验,互联网信息安全有着无限的发展趋势,将会是大数据时代下最值得关注的问题。在未来互联网行业里,信息安全技术将是重中之重。

在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。此外,即使企业合法获取数据,也要担心是否会被恶意***和窃取。这里面的风险也是不容忽视的。除了安全之外,大数据还要面临能耗等方面的问题。

换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。


猜你喜欢

转载自blog.51cto.com/14217196/2392200
今日推荐