DAMA数据管理知识体系指南-读书笔记14

第14章 大数据和数据科学

一、引言

大数据不仅指数据的量大,也指数据的种类多(结构化和非结构化的,文档、文件、音频、视频、流数据等),以及数据产生的速度快。

数据科学家从数学、统计学、计算机科学、信号处理、概率建模、模式识别、机器学习、不确定建模以及数据可视化等方面综合了各种方法,根据大数据集对行为进行预测,以获得更多的信息。

1.1 业务驱动

大数据可通过对更多、更大的数据集进行探索来激发创新,这些数据可用来定义预判客户需求的预测模型,并实现产品和服务的个性化展示。机器学习算法可以将那些复杂且耗时的活动实现自动化,从而提升组织效率、削减成本、降低风险。

1.2 基本概念

1.2.1 数据科学

数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。

1.2.2 数据科学的过程

  • 定义大数据战略和业务需求。定义一些可衡量的、能够产生实际收益的需求。
  • 选择数据源。在当前的数据资产库中识别短板并找到数据源以弥补短板。
  • 采集和提取数据资料。收集数据并加载使用它们。
  • 设定数据假设和方法。通过对数据进行剖析、可视化和挖掘来探索数据源。定义模型算法的输入、种类或模型设计和分析方法。
  • 集成和调整数据进行分析。模型的可行性部分取决于源数据的质量。要利用可靠的数据来源,应用适当的数据集成和数据清洗技术提升预备数据集的质量和可用性。
  • 使用模型探索数据。对集成的数据应用统计分析和及其学习算法进行验证、训练,并随着时间的推移演化模型。
  • 部署和监控。可将产生有用信息的那些模型部署到生成环境中,以持续监控它们的价值和有效性。

1.2.3 大数据

  • 数据量大。大数据通常拥有上千个实体或数十亿个记录中的元素。
  • 数据更新快。指数据被捕获、生成或共享的速度。
  • 数据类型多样/可变。指抓取或传递数据的形式。大数据需要多种格式存储。
  • 数据黏度大。指数据使用或集成的难度比较高。
  • 数据波动性大。指数据更改的频率,以及由此导致的数据有效时间短。
  • 数据准确性低。指数据的可靠程度不高。

1.2.4 数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。如可提供:

  • 数据科学家可以挖掘和分析数据的环境。
  • 原始数据的集中存储区域,只需很少量的转换。
  • 数据仓库明细历史数据的备用存储区域。
  • 信息记录的在线归档。
  • 可通过自动化的模型识别提取流数据的环境。

数据湖可作为Hadoop或其他数据存储系统、集群服务、数据转换和数据集成等数据处理工具的一种符合配置来实施。

1.2.5 基于服务的架构

基于服务的体系结构(SBA)正在成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确地历史数据集。SBA架构与数据仓库架构有些类似,它会把数据发送到操作型数据存储组件。

  • 批处理层。数据湖作为批处理层提供服务,包括近期的和历史的数据。
  • 加速层。只包括实时数据。
  • 服务层。提供连接批处理和加速层数据的接口。

1.2.6 机器学习

机器学习探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合。无监督学习通常被称为数据挖掘,而监督学习是基于复杂的数学理论,特别是统计学、组合学和运筹学。第三个分支正处于形成过程中,称为强化学习,即没有通过教师的认可就实现了目标优化,如驾驶车辆。通过编程使机器可快速从查询中学习并适应不断变化的的数据集,从而在大数据中引入一个全新的领域,称为机器学习。

1.2.7 语义分析

媒体监控和文本分析是从大量非结构化或半结构化数据中家您所并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。使用自然语言处理(NLP)分析短句或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景。

1.2.8 数据和文本挖掘

数据挖掘是探索阶段的一项关键活动,因为它有助于快速识别需要研究的数据元素,识别以前未知,不清楚或未分类的新关系,并未所研究的数据元素提供分类的结构。文本挖掘使用文本分析和数据挖掘技术来分析文档,将内容自动进行分类,成为工作流导向和领域专家导向的知识本体。数据和文本挖掘使用了一系列的技术,包括:

  • 剖析。剖析尝试描述个人、群体或人群的典型行为,用于建立异常检测应用程序的行为规范,如欺诈监测和计算机系统入侵系统。剖析结果是许多无监督学习组件的输入。
  • 数据缩减。数据缩减是采用较小的数据集来替换大数据集,较小数据集中包含了较大数据集中的大部分重要信息。较小数据集可能更易于分析或处理操作。
  • 关联。关联是一种无监督的学习过程,根据交易涉及的元素进行研究,找到它们之间的关联。关联的示例包括频繁的商品集挖掘、规则发现和基于市场的分析。互联网上的推荐系统也使用这个过程。
  • 聚类。基于数据元素的共享特征,将它们聚合为不同的簇。客户细分是聚类的一个示例。
  • 自组织映射。自组织映射是聚类分析的神经网络方法,类似于多维度缩放。降维就像从等式中移除一个变量而不影响结果,使得这些问题变得更容易被解决、数据更容易被展示出来。

1.2.9 预测分析

预测分析是有监督学习的新领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。预测分析探索植根于数据,特别是统计学,与无监督学习拥有许多相同的组成部分,对预期预测结果进行测量时差异是可控的。

1.2.10 规范分析

规范分析比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。由于规范分析可以显示各种决策的含义,因此可以建议如何利用机会或避免风险。规范分析可不断接收新数据以重新预测和重新规定。该过程可提高预测准确性,并提供更好的方案。

1.2.11 非结构化数据分析

非结构化数据分析结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。监督学习技术也可用于在编程过程中提供方向、监督和指导,利用人为干预在必要时解决歧义问题。

扫描和标记是向非结构化数据添加“钩子”的一种方法,它允许对相关结构化数据进行链接和筛选。要想知道根据什么条件生成什么标签是很困难的。知识一个迭代过程,从识别出建议的标签条件时开始,在摄取数据时分配标签,然后分析使用这些标签去验证标签条件,在分析标签数据。这个过程可能导致标签条件的变化,或者更多的标签变化。

1.2.12 运营分析

运营分析包括用户细分、情绪分析、地址编码以及应用于数据集的其他技术,用于营销活动分析、销售突破、产品推广、资产优化和风险管理。

运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。设计成功分析所需的模型、触发器和响应需要对数据本身进行更多的分析。运营分析解决方案包括多行为模型预填充所需历史数据的准备。

1.2.13 数据可视化

数据可视化通过视觉概览来帮助理解基础数据。数据可视化压缩并封装特征数据,使其更易于查看。通过这种方式,有助于发现商机,识别风险或凸显信息。

数据可视化可静态格式或更有交互性的在线格式交付,某些格式支持和最终用户的交互,其中钻取或过滤功能有助于对可视化中的数据进行分析;另一些则使用用户根据需要通过创新的展示手段来调整可视化效果。

1.2.14 数据混搭

数据混搭将数据和服务结合在一起,以可视化的方式展示见解或分析结果。这种技术可很容易地应用到互联网上,安全的数据混搭技术实现了跨供应商或提供地共享个人或机密信息。它们可与人工智能学习算法结合,通过自然语言接口提供基于互联网的公开服务。

二、活动

2.1 定义大数据战略和业务需求

大数据战略必须包括以下评估标准:

  • 组织视图解决什么问题,需要分析什么。一个组织可以决定如何使用这些数据来理解业务或业务环境,证明关于新产品价值的想法,探索未知的事物,或者发明一种新的商业方法。
  • 要使用或获取的数据源是什么。内部资源可能易于使用,但也可能在范围上受到限制。外部资源可能很有用,但不在业务控制范围内。
  • 提供数据的及时性和范围。针对静止数据的计算算法与流失计算算法之间存在巨大差异,低延迟数据是理想的,但往往以牺牲大量机器学习能力为代价。不用为了满足下游数据使用需求而采用最小化集成级别。
  • 对其他数据结构的影响以及与其他数据结构的相关性。可能需要对其他数据结构进行结构或内容改造,使其适合于大数据集成整合。
  • 对现有建模数据的影响。包括扩展对客户、产品或营销方法的知识。

2.2 选择数据源

大数据环境可快速获取大量数据,随着时间的推移需要进行持续管理,需要了解以下基本事实:

  • 数据源头
  • 数据格式
  • 数据元素代表什么
  • 如何连接其他数据
  • 数据的更新频率

需要评估数据的价值和可靠性:

  • 基础数据。在销售分析中考虑基础数据组件,如POS
  • 粒度。理想情况下,以最细粒度的形式获取数据,这样可用于各种目的聚合。
  • 一致性。如果可能,选择超越可视化和认知限制、合适且一致的数据。
  • 可靠性。选择长时间稳定可靠的数据源。采用权威来源的可信数据。
  • 检查/分析新数据源。在添加新的数据集之前,需要对变更情况进行测试。

2.3 获得和接收数据源

迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法贪多这些数据源,以定义模型算法输入或模型假设。

2.4 制定数据假设和方法

制定数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。基于对模型的输入,一个问题将会有多个答案。

2.5 集成和调整数据进行分析

准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。通常,在初始阶段检查数据,了解如何分析数据。聚类有助于确定数据输出的分组,其他方法可以找到构建模型和显示结果的相关性。在初始阶段使用这些技术有助于理解模型在发布后如何显示结果。

2.6 使用模型探索数据

2.6.1 填充预测模型

需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。通常提前执行预填充计算,对触发事件做出最快的响应。

2.6.2 训练模型

需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。

在转换生产之前,必须完成模型验证。通过训练和验证的模型偏移量来解决任何填充失衡或数据偏差问题。这可以在生产中调整,因为初始偏移量可通过实际填充数据逐渐得以调整。通过贝叶斯共同选择,分类器反演或规则归纳可实现对特征混合的优化。模型也可以被组合起来用于融合学习,通过对简单模型的组合构建更强大的预测模型。识别异常值或反常现象对于评估模型至关重要。

2.6.3 评估模型

将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。数据科学家针对数据运行查询和算法,查看是否有任何见解显现出来,通常会运行许多不通的数学函数以查看是否找到任何有用的信息。在此期间,数据科学家通常在批次迭代中发现新的见解。通过这些过程,可开发出模型,揭示数据元素和见解之间相关性。

在评估模型时,需要用到数据科学实践中的一个道德组件。模型可能会产生意外结果,或无意中反映建模者的假设和偏见。

2.6.4 创建数据可视化

模型的数据可视化必须满足与模型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。设定可视化的目的和参数:时间点状态、趋势与异常、移动部分之间的关系、地理差异及其他。

选择适当的视觉形式来实现目的,确保可视化满足受众的需求;调整布局和复杂性进行响应的突出显示和简化,并非所有受众都准备好使用复杂的交互式图表,应该支持带有解释性文字的可视化。

可视化应采用讲故事的形式。数据“故事描述”可将新问题链接到数据探索的上下文环境中。只有利用相关数据可视化讲述数据故事,才能获得最佳效果。

2.7 部署和监控

满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。模型可以提供批处理过程以及实时整合消息,它们还可以嵌入分析软件,作为决策管理系统、历史分析或绩效管理仪表盘的输入。

2.7.1 揭示洞察和发现

通过数据可视化来展示发现和数据洞察是数据科学研究的最后一步,洞察英语行动项目相关联,这样组织才能从数据科学工作中受益。可以通过数据可视化技术探索新的关系。当模型被使用时,基础数据和数据关系的变化可能会显现出来,同时也是在讲述有关数据的新故事。

2.7.2 使用附加数据源迭代

展示发现和数据洞察,通常会产生新的问题,这又会触发新的研究过程。数据科学是一个迭代地过程,因此大数据开发需要迭代地支持。从特定的一组数据源中学习的过程,通常会导致需要不同的或额外的数据源,以支持得到的结论并向现有模型中添加洞察。

三、工具

大规模并行处理(MPP)提供了在相对较短的时间内分析巨量信息的手段。其他改变了我们查看数据和信息方式的技术包括:

  • 数据库内的高级分析
  • 非结构化数据分析(Hadoop、MapReduce)
  • 分析结果与操作系统的集成。
  • 跨多媒体和设备的数据可视化
  • 链接结构化和非结构化信息的语义。
  • 使用物联网的新数据源。
  • 高级可视化能力。
  • 数据扩展能力
  • 技术和工具集的协作。

3.1 MPP无共享技术和架构

大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台。在MPP数据库中,数据在多个处理服务器之间进行分区,每个服务器都有自己的专用内存来处理本地数据。处理服务器之间的通信由管理节点控制,并通过网络互联进行。因为该架构没有磁盘共享,也不发生内存争用,因此称作"无共享";

3.2 基于分布式文件的数据库

分布式文件的解决方案技术,如开源的Hadoop,是以不通格式存储巨量数据的廉价方式。Hadoop存储任何类型的文件-结构化、半结构化和非结构化。使用类似于MPP无共享的配置,能够跨处理服务器共享文件。由于成本相对较低,Hadoop已成为许多组织的首要选择。基于问价的解决方案使用的模型成为MapReduce。该模型有三个主要步骤:

  • 映射。识别和获取需要分析的数据。
  • 洗牌。依据所需的分析模型组合数据。
  • 归并。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。

3.3 数据库内算法

数据库内算法使用类似APP的原则。MPP无共享架构中的每个处理器可以独立运行查询,因此可在计算节点级别实现新形势的分析处理,提供数学和统计功能,提供可扩展数据库内算法的开源库,用于机器学习、统计和其他分析任务。

3.4 大数据云解决方案

供应商为大数据提供包括分析功能的云存储和集成整合能力。根据定义的标准,客户将数据加载到云环境中。供应商通过开放数据集或其他组织提供的方式来增强数据。客户可使用组合数据集进行分析和数据科学活动。

3.5 统计计算和图形语言

R语言是用于统计计算和图形的开源脚本语言和环境。它提供了各种各样的统计技术,如线性和非线性建模、经典统计检验、时间序列分析、分类和聚类。

3.6 数据可视化工具集

高级可视化和发现工具使用内存架构,使用户能够与数据交互,展示难以识别的大数据集的模式。当成千上万个数据点被加载到复杂的显示中时,视觉模式可以快速抓取视觉图案。

许多工具集现在支持诸如雷达图、平行坐标图、标签图、热图和数据地图等信息可视化方法。与传统的可视化工具相比,这些工具具有一下优势:

  • 负责的分析和可视化类型,如格子图、火花线、热图、直方图、瀑布图和子弹图。
  • 内置可视化最佳实践。
  • 交互性,实现视觉发现。

四、方法

4.1 解析建模

解析模型与不同的分析深度相关联:

  • 描述性建模以紧凑的方式汇总或表示数据结构。这种方法并不总能验证因果假设或预测结果,但确实能够使用算法定义或改善变量之间的关系,从而为这种分析提供输入。
  • 解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。虽然它使用类似于数据挖掘和预测分析的技术,但其目的却不同。它不能预测结果,只是将模型结果与现有数据相匹配。

4.2 大数据建模

对数据仓库进行物理建模的主要驱动因素是为查询性能而启动数据填充。数据建模的价值在于它能够使人们理解数据的内容。应用经过验证的数据建模技术,需要同时考虑各种源,至少用概括的方式开发主题域模型。

五、实施指南

管理数据仓库数据的许多一般规则适用于管理大数据:确保数据源可靠、具有足够的元数据以支持数据使用、管理数据质量、确定如何整合来自不同源的数据,以及确保数据安全且受到保护。实施大数据环境的差异与一组未知问题有关:如何使用数据、哪些数据有价值、需要保留多长时间。

5.1 战略一致性

任何大数据/数据科学项目都应该与组织目标战略一致。该战略记录目标、方法和治理原则。利用大数据需要建立组织技能和能力,使用能力管理来安排业务和IT计划并制定路线图。战略交付成果应考虑管理以下要素:

  • 信息生命周期
  • 元数据
  • 数据质量
  • 数据采集
  • 数据访问和安全性
  • 数据治理
  • 数据隐私
  • 学习和采用
  • 运营。

5.2 就绪评估/风险评估

评估与关键成功因素相关的组织准备情况,具体包括:

  • 业务相关性。大数据/数据科学计划及其相应的用例与公司业务的一致性如何?要取得成功,他们需要强力有地执行业务功能和流程。
  • 业务准备情况。业务合作伙伴是否为长期递增的交付做好了准备?他们是否承诺建立卓越中心以在未来版本中支持产品?目标团体内的平均知识或技能差距有多大,是否可以在单个增量内跨越?
  • 经济可行性。建议的解决方案是否保守地考虑了有形收益和无形收益?所有权成本的评估是考虑购买或租赁物品,还是从零开始构建?
  • 原型。是否可以在有限时间内,为一小部分最终用户团体提供建立的原型方案,以证明建议的价值?
  • 可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。
  • 数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。
  • 市场上有多重工具和技术,满足一般需求将是一个挑战。
  • 及时保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。
  • 培养内部人才的时间可能会超过交付窗口的时间。

5.3 组织与文化变迁

与DW/BI一样,大数据实施将汇集许多关键的跨职能角色,包括:

  • 大数据平台架构师。硬件、操作系统、文件系统和服务。
  • 数据摄取架构师。数据分析、系统记录、数据建模和数据映射。提供或支持将源映射到Hadoop集群以进行查询和分析。
  • 元数据专家。元数据接口、元数据架构和内容。
  • 分析设计主管。最终用户分析设计、最佳实践依靠行管工具集指导实施,以及最终用户结果集简化。
  • 数据科学家。提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和建模设计咨询。

六、大数据和数据科学治理

与其他数据一样,大数据同样需要治理。寻源、来源分析、提取、丰富和发布流程需要业务和技术控制,解决以下问题:

  • 寻源。来源有哪些,什么时候接入源,什么是特定研究的最佳数据来源。
  • 共享。组织内部和外部都签订的数据共享协议和合同、条款和条件。
  • 元数据。数据在源端意味着什么,如何解释输出端的结果。
  • 丰富。是否丰富数据,如何丰富数据,以及丰富数据的好处。
  • 访问。发布什么,向谁发布,如何以及何时发布。

6.1 可视化渠道管理

根据组织的规模和性质,可能会在各种流程中应用多种不同的可视化工具。确保用户了解可视化工具的相对复杂性,负有经验的用户将有越来越复杂的需求。企业脚骨、项目组合管理和运维团队之间的协调杜宇控制项目组合内部和整个项目组合中的可视化通道是必要的。

6.2 数据科学和可视化标准

最佳实践是建立一个定义和发布可视化标准和指南的社区,并在制定的交付方法中审查工作,这对于面向客户和监管的内容尤为重要。标准可能包括:

  • 分析范例、用户团体、主题域的工具标准
  • 新数据的请求。
  • 数据集流程标准。
  • 采用中立的、专业的陈述过程,避免产生有偏见你的结果,并确保所有要素都以公平一致的方式完成,包括‘:数据包含和排除、模型中的假设、结果统计有效性、结果解释有效性、采用适当的方法。

6.3 数据安全

拥有可靠的数据保护流程本身就是一项组织资产,应建立和监控处理和保护大数据的政策。应考虑如何防止滥用个人数据,并在整个生命周期内保护个人数据。

为授权人员安全地提供适当级别的数据,并根据议定的级别提供订阅数据。对用户社区安排服务,以便可以创建特殊服务,为允许其提取的社区提供私有数据,并为其他人屏蔽数据。

重组会衡量重建敏感数据或私人数据的能力,必须将此能力作为大数据安全实践的一部分进行管理。即使实际数据元素只能被推断出,分析结果也坑你会侵犯隐私。理解元数据管理级别的结果,对于避免此类和其他潜在的安全违规行为至关重要。

6.4 元数据

元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。元数据特征化数据的结构、内容和质量,包括数据的来源、数据的血缘沿袭、数据的定义,以及实体和数据元素的预期用途。技术元数据可从各种大数据工具中获取,包括数据存储层、数据整合、MDM甚至源文件系统。

6.5 数据质量

数据质量是与预期结果偏差的度量:差异越小,数据满足期望越好,质量就越高。初始评估是理解数据所必须的,并且通过该评估识别数据集的后续实例的测量值。数据质量评估将产生有价值的元数据,这将是任何集成整合数据的必要工具。

大多数成熟的大数据组织,使用数据质量工具集扫描数据输入源,以了解其中包含的信息。大多数高级数据质量工具集都提供了一些功能,使组织能够测试假设,并构建有关其数据的知识,例如:

  • 发现。信息驻留在数据集中的位置。
  • 分类。基于标准化模式存在哪些类型的信息。
  • 分析。如何填充和构建数据。
  • 映射。可将哪些其他数据集与这些值匹配。

6.6 度量指标

指标对于任何管理流程都至关重要,它们不仅可以量化活动,还可以定义观察到的内容和期望的内容之间的差异。

6.6.1 技术使用指标

许多大数据工具都提供了富有洞察力的管理员报告功能,可直接与用户社区查询的内容进行交互。使用技术分析手段查找数据热点,以便管理数据分发和保持性能。增长率也有助于产能规划。

6.6.2 加载和扫描指标

加载和扫描指标定义了提取率以及与用户社区的交互。在采集  新数据源时,预期的加载指标会随着源被完全提取而达到峰值,然后区域平稳。实时馈送可通过服务查询提供,但也可按计划的抽取处理;对于这些馈送,预计数据加载会不断增加。

应用层可能会从执行日志中提供最佳数据使用指标。通过可用的元数据监控消费或访问,显示最频繁发生的查询执行计划,以指导使用情况分析。

6.6.3 学习和故事场景

为了显示价值,大数据/数据科学项目必须衡量有形成果,以真名开发解决方案和管理流程变更的成本是合理的。指标包括效益的量化、成本预防或避免,以及启动和实现效益之间的时间长度。常用的测量方法包括:

  • 已开发模型的数量和准确性。
  • 已识别的机会中实现的收入。
  • 避免已识别的威胁所降低的成本。

猜你喜欢

转载自blog.csdn.net/baidu_38792549/article/details/124978275
今日推荐