大数据导论托马斯—第一章理解大数据

基本术语和概念

1、数据集:由相关联(有相同特征或属性)的数据构成的集合。
2、数据分析:通过处理数据发现一些深层事实、模式、关系或趋势的过程。
目标:提炼有价信息做出更好的决策。
3、数据分析学:对整个数据生命周期进行管理的学科。
(1)数据生命周期:(2)数据分析:
Descriptive Analytics:对已经发生的事情进行总结。通过报表和仪表板呈现结果。
数据来源举例:OLTP联机事务处理过程(把前台接收的用户数据立即传送到计算中心进行处理,并在很短的时间内给出处理结果)
CRM客户关系管理(用计算机自动化分析销售、市场营销、客户服务及应用等流程的系统,选择和管理有价值客户及其关系)
ERP企业资源计划(用信息技术和系统化管理思想,为企业员工及决策层提供决策手段)
Diagnostic Analytics:寻求发生现象的原因。通过交互式可视化工具呈现。将数据以一种易于roll up 和drill down的结构加以保存(roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。)
数据来源举例:OLAP联机分析处理过程(分析人员快速、灵活地对大数据进行复杂查询处理,并且以一种直观易懂的形式将结果提供给决策人员,使他们准确掌握企业的经营状况,了解对象需求并制定方案)
Predictive Analytics:根据历史和当前数据中的模式,趋势和例外预测事件结果。
数据来源举例:经过分析后的OLAP和文本数据等。
Prescriptive Analytics:在预测性分析基础上规范需要执行的行动,对结果进行优化。此种分析涉及使用业务规则和大量内部和外部数据来模拟结果并规定最佳方案,重点是给出方案的原因。
数据来源举例:商业规则、内部数据和外部数据。
以上四种分析从上到下的价值越来越大,需要的训练集越来越高级,计算过程亦越来越复杂。
4、商务智能(BI)通过分析有业务过程和信息系统生成的数据让一个组织能够获得企业绩效的内在认识。通过仪表板呈现。
5、关键绩效指标(KPI)用来衡量一次业务过程是否成功的度量标准。通过仪表板呈现。

大数据特征(5V)

1、容量(volume)数据量大、持续增长。源于在线交易、科研实验、传感器、社交媒体等。
2、速率(velocity)数据进入企业边缘到能够马上进行处理的时间。处理数据时,访问速度和得到所需结果的速度至关重要。
3、多样性(variety)不同格式、不同类型的数据,除此之外来源多种多样,用来传播的媒体越来越多(如音频、视频和图片等),语义也发生变化(例如我们用数字表示年龄,也可用字母表示)。
4、真实性(veracity)质量和保真性。信噪比越高,真实性越高。数据本身有问题则分析结果也不会正确。
5、价值(value)有用程度。真实性越高,价值越高,两者呈线性正相关。数据转变为有用信号时间越短,价值越高两者呈负相关,且分析时间越长价值降低的速度越慢(后期价值很低,减少的也慢)。
查阅资料发现大数据还有其他特征,如连接性(valence)两个数据相关称相互连接。而连接性随时间越来越大,导致数据关系越来越复杂,于是群体事件预测、关系变化的建模与预测等也会越来越复杂。

数据的不同类型

现实世界中数据来源有:
经过大数据方案处理后的类型有结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。
1、结构化数据:遵循一个标准的模型或模式,常以表格形式存储,简单说来就是数据库。通常用来捕捉不同对象实体之间的关系,由二维表结构来逻辑表达和实现,严格地遵循数据格式与长度规范,储存于关系数据库中。
ERP(企业资源计划)建立在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策运行手段的管理平台。它对于改善企业业务流程、提高企业核心竞争力具有显着作用
CRM(客户关系管理)指用计算机自动化分析销售、市场营销、客户服务以及应用等流程的软件系统。目标是通过提高客户的价值、满意度等来缩减销售周期和销售成本、增加收入、寻找扩展业务所需的新的市场和渠道。
2、非结构化数据:没有固定结构的数据。包含各类报表、图像和音频/视频信息等等。一般直接整体进行存储,而且一般存储为二进制大型对象(BLOB)的数据格式。
NoSQL(Not only SQL)非关系型数据库,用来储存结构化和非结构化数据。
除此之外网上查询的处理非结构化数据方法:建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。
3、半结构化数据:有一定的结构和一致性约束,但本质上不具有关系性。层次性和基于图形的。常见的有XML和JSON文件及传感器数据等,来源于EDI文件、扩展表、RSS源等。
XML(可扩展标记语言)是一种用于标记电子文件使其具有结构性的标记语言。
JSON(JavaScript Object Notation, JS 对象简谱)是一种轻量级的数据交换格式。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
EDI(电子数据交换)是指一种为商业或行政事务处理,按照一个公认的标准,形成结构化的事务处理或消息报文格式,从计算机到计算机的电子传输方法。
RSS源:一种描述和同步网站内容的格式,是目前使用最广泛的XML应用。
找到一个半结构化数据的例子感觉很好。比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。这个例子里面员工的数据有一定结构,属于同一类实体可以有不同的属性,属性的顺序并不重要,但是属性可能是文本型可能是数值型的,结构不统一。
处理方法:化解为结构化数据,用XML格式来组织并保存到CLOB字段中。
4、元数据:描述数据及其环境的数据,提供了数据系谱信息以及数据的起源(包含数据集的特征和结构信息)。由机器生成且能够添加到数据集中。
元数据主要用于数据仓库领域(提供基于用户的信息,支持系统对数据的管理和维护)、软件构造领域(以解释方式控制程序行为)、图书馆与信息界,还有地理界、生命科学界等领域。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/yuanlaishixiaoxin/article/details/83045398
今日推荐