大数据导论(1)——“大数据”相关概念、5V特征、数据类型

 

在过去的十几年中,各个领域都出现了大规模的数据增长,而各类仪器、通信工具以及集成电路行业的发展也为海量数据的产生与存储提供了软件条件与硬件支持。

大数据,这一术语正是产生在全球数据爆炸式增长的背景下,用来形容庞大的数据集合。

由于大数据为挖掘隐藏价值提供了新的可能,如今工业界、研究界甚至政府部门等各行各业都对大数据这一研究领域密切关注。

尽管目前大数据的重要性已被社会各界认同,但大数据的定义却众说纷纭,Apache Hadoop组织、麦肯锡、国际数据公司等其他研究者都对大数据有不同的定义。但无论是哪种定义都具有一定的狭义性。

因此,我们可以从大数据的“5V”特征对大数据进行识别。同时,企业内部在思考如何构建数据集时,也可以从此特征入手。以下就是大数据的“5V”特征图。

 

1. 容量(Volume)

是指大规模的数据量,并且数据量呈持续增长趋势。目前一般指超过10T规模的数据量,但未来随着技术的进步,符合大数据标准的数据集大小也会变化。

大规模的数据对象构成的集合,即称为“数据集”。

不同的数据集具有维度不同、稀疏性不同(有时一个数据记录的大部分特征属性都为0)、以及分辨率不同(分辨率过高,数据模式可能会淹没在噪声中;分辨率过低,模式无从显现)的特性。

因此数据集也具有不同的类型,常见的数据集类型包括:记录数据集(是记录的集合,即数据库中的数据集)、基于图形的数据集(数据对象本身用图形表示,且包含数据对象之间的联系)和有序数据集(数据集属性涉及时间及空间上的联系,存储时间序列数据、空间数据等)。

2. 速率(Velocity)

即数据生成、流动速率快。数据流动速率指指对数据采集、存储以及分析具有价值信息的速度。

因此也意味着数据的采集和分析等过程必须迅速及时。

3. 多样性(Variety)

指是大数据包括多种不同格式和不同类型的数据。数据来源包括人与系统交互时与机器自动生成,来源的多样性导致数据类型的多样性。根据数据是否具有一定的模式、结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据。

  • 结构化数据,指遵循一个标准的模式和结构(conform to a data model or schema),以二维表格的形式存储在关系型数据库里的行数据。结构化数据是先有结构、后产生数据。由于关系型数据库发展较为成熟,因此结构化数据的存储、分析方法也发展的较为全面,有大量的工具支持结构化数据分析,分析方法大部门以统计分析和数据挖掘为主。其中,关系型数据库(Relational Database)是创建在关系模型基础上的数据库,关系模型即二维表格模型,因此一个关系型数据库包括一些二维表且这些表之间的具有一定关联。关系型数据库可运用SQL语言通过固有键值提取相应信息。
  • 非结构化数据,是指不遵循统一的数据结构或模型的数据(如文本、图像、视频、音频等),不方便用二维逻辑表来表现。这部分数据在企业数据中占比达,且增长速率更快。非结构化数据更难被计算机理解,不能直接被处理或用SQL语句进行查询。非结构化数据常以二进制大型对象(BLOB,将二进制数据存储为一个单一个体的集合)形式,整体存储在关系型数据库中中;或存储在非关系型数据库中(NoSQL数据库)。其处理分析过程也更为复杂。
  • 半结构化数据,是指有一定的结构性,但本质上不具有关系性,介于完全结构化数据和完全非结构化数据之间的数据。它可以说是结构化数据的一种,但是结构变化很大。因此,为了了解数据的细节,不能将数据简单按照非结构化数据或结构化数据进行处理,需要特殊的存储(化解为结构化数据/用XML格式来组织并保存到CLOB字段中)和处理技术。半结构化数据包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构(以树或者图的数据结构存储的数据)。先有数据,再有结构。两种常见的半结构化数据:XML文件和JSON文件。常见来源包括电子转换数据(EDI)文件、扩展表、RSS源、传感器数据。
  • 除此之外,还有一种用于描述其他数据的数据,即“元数据”。元数据可说明已知的数据的一些属性信息(数据长度、字段、数据列、文件目录等),提供了数据系谱信息(包含数据的演化过程。)、和数据处理的起源。元数据可分为三种不同类型,分别为记叙性元数据、结构性元数据和管理性元数据,主要由机器生成并添加到数据集中。例如数码照片中提供文件大小和分辨率的属性文件。元数据的作用也类似于数据仓库中的数据字典。

4. 真实性(Veracity)

指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比。

信噪比与数据源和数据类型无关。

5. 价值(Value)

即低价值密度。随着数据量的增长,数据中有意义的信息却没有成相应比例增长。而价值同时与数据的真实性和数据处理时间相关,见图。

根据“5V”特征可对大数据进行界定,但大数据不但包括大数据技术、应用,还包括大数据科学以及大数据工程。

其关键不在于如何定义,而应该是如何提取数据价值。

根据大数据的分析处理目的的不同,可将大数据分析分为描述性分析(Descriptive Analytics)、诊断性分析(Diagnostic Analytics)、预测性分析(Predictive Analytics)和规范性分析(Prescriptive Analytics)。这四种分析模式均大量应用于企业业务运作的各个流程中。

  • 描述性分析——对历史数据进行统计和分析;
  • 诊断性分析——主要目的是探索历史事件背后的原因;
  • 预测性分析——通过分析历史数据,对未来的可能情况进行预测;
  • 规范性分析——在预测性分析结果的基础上,进行更深一步的挖掘,并解释深层次的原因。

由此,企业日常运作中可运用商务智能(BI)以优化业务模式,并通过关键绩效指标(KPI)衡量业务能力。

猜你喜欢

转载自www.cnblogs.com/NovemberRain/p/9850327.html