[1064]大数据概述

大数据时代的数据特点

一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的"4V“

(1)规模性,即大数据具有相当的规模,其数据量非常巨大。淘宝网近4亿的会员每天产生的商品交易数据约20TB, Facebook (脸书)约10亿的用户每天产生的日志数据超过300TB。数据 的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为PB级别的 才能称得上是大数据。根据IDC公司的最新研究,未来10年,全球的数据总量将会增长50倍, 以此推算,数据产生的速度越来越快,而且数据总量将呈现指数型的爆炸式增长。

(2) 多样性,即大数据的数据类型呈现多样性。数据类型繁多,不仅包括结构化数据,还包 括非结构化数据和半结构化数据。其中,结构化数据即音频、图片、文本、视频、网络日志、地理 位置信息等。传统的数据处理对象基本上都是结构化数据,而在现实中非结构化数据也是大量存在 的,所以既要分析结构化数据又要分析非结构化数据才能满足人们对数据处理的要求。

(3) 高速性,即处理大数据的速度越来越快,处理时要求具有时效性,因为数据和信息更新 速度非常快,信息价值存在的时间非常短,必须要求在极短的时间下在海量规模的大数据中摒除无 用的信息来搜集具有价值和能够利用的信息。所以随着大数据时代的到来,搜集和提取具有价值的 数据和信息必须要求高效性和短时性。

(4) 价值性。从大数据的表面数据进行分析,进而得到大数据背后重要的有价值的信息,最 后可以精确地理解数据背后所隐藏的现实意义。

大数据的价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连 续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值 “提纯”成为目前大数据背景下亟待解决的难题。

大数据时代的关键技术

(1) 大数据釆集技术
大数据釆集是指通过对社交网络交互数据、移动互联网数据、RFID射频数据以及传感器数据 的收集,获得各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据。大数据 釆集是大数据知识服务模型的根本。重点要突破分布式、高速、高可靠数据爬取等大数据釆集技术。

(2) 大数据预处理技术
大数据预处理技术主要完成对已接收数据的抽取、清洗等操作。因获取的数据可能具有多种 结构和类型,数据抽取能帮助我们从各种异构的源数据源系统抽取到目的数据源系统需要的数据。 大数据并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰 项,因此要对数据进行过滤“去噪”,从而提取出有效数据。

(3) 大数据存储及管理技术
大数据存储与管理要用存储器把釆集到的数据存储起来,并进行管理和调用。重点解决复杂 结构化、半结构化和非结构化大数据存储管理技术。主要解决大数据的可存储、可靠性及有效传输 等几个关键问题。可靠的分布式文件系统(DFS)是高效低成本的大数据存储技术。

(4) 大数据分析及挖掘技术
大数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含 在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。大数据挖掘根据挖掘方法可粗 略地分为机器学习方法、统计方法、神经网络方法和数据库的多维数据分析方法等,它能够将隐藏 于海量数据中的信息和知识挖掘出来。

(5) 大数据可视化展现技术
大数据可视化无论对于普通用户或是数据分析专家都是最基本的功能。大数据可视化可以让 数据自己说话,让用户直观地感受到结果,也可以让数据分析师根据图像化分析的结果做出一些前 瞻性判断。

参考:https://zhuanlan.zhihu.com/p/159135558

Guess you like

Origin blog.csdn.net/xc_zhou/article/details/121234781