大数据理论技术在行业中有哪些应用？

进入21 世纪以来，信息技术的发展突飞猛进，人类从信息时代步入数字时代，又马不停蹄地进入了数据时代。自2008 年大数据被业界正式提出后，围绕大数据的科学研究和产业应用如火如荼，快速实现了从名词炒作到应用落地，数据采集、数据处理、数据建模、数据分析和数据可视化等大数据相关技术在越来越多的行业中得到了广泛研究和普遍应用。与此同时，我国政府高度重视大数据的理论研究和产业应用，并大力支持高校开设大数据科学与技术相关学科专业，以应对持续井喷的大数据人才需求。译者作为这一伟大时代的普通见证者和实践者，深深感到大数据技术将在未来的数据时代和人工智能时代发挥举足轻重的作用。

大数据不仅是一项技术，又是一门理论和实践性都很强的学科，更是一种创新性思维和理念。大数据行业不仅需要低端的数据标注师，也需要中端的数据工程师和数据分析师，还需要处于大数据人才结构最顶层的数据科学家。遗憾的是，数据科学家的培养绝非一蹴而就，需要经过大量的系统学习和专业培训。最近几年，大数据相关的书籍层出不穷、琳琅满目，有针对管理人员的大数据思维类图书，有面向高校学生的大数据技术原理类图书，还有面向企业技术人员的大数据实践实训类图书。诚然，这些图书中不乏概念清晰、思路新颖、内容全面的好书，但市场上真正能够很好地将理论、技术、工具和实际应用紧密融合的大数据图书少之又少。

本书的两名作者是大数据业界的知名专家学者，也是一对令人敬仰和羡慕的父女搭档，他们对大数据理论技术和行业应用有着深刻独到的理解。针对大数据业界人才培养的痛点，本书在讲透大数据科学基本原理的同时，非常重视面向实际问题的实战教学，希望借助当前世界上最流行、最好用的两大开源数据科学工具——Python 和R 语言，来解决可能遇到的各种数据科学问题，这无疑有助于提高有志于大数据研究和应用的广大读者在这个前沿领域的专业技能。正如本书作者所言，通过本书，读者将亲身体验使用业界最先进的技术来逐步寻求针对实际业务问题的解决方案。换句话说，读者将通过数据科学的亲手实践来认识、学习和研究数据科学。另一方面，本书作者通过生活中的实际案例，将复杂枯燥的数据问题转化为有趣易懂的实践操作，对读者的专业背景要求较低，因而有着较广泛的受众群体。此外，本书作者精心组织内容，并提供了翔实的学习指导和大量配套习题，很适合作为高职高专或本科高校教材使用，教师可以针对不同层次和不同专业的学生合理选取教学内容。

王海涛

节选自《数据科学实战入门使用Python和R》一书

---------------------------------------------------图书基本信息----------------------------------------

书名：《数据科学实战入门使用Python和R》

ISBN:9787302553793

定价：69.8

出版时间：2020年7月

京东移动端链接：https://item.m.jd.com/product/12672591.html

内容简介：

《数据科学实战入门　使用Python和R》一书将使你深入了解数据科学最流行的两大开源平台：Python和R。

　　当前数据科学非常热门。Python和R是世界更流行的两个开源数据科学工具。在本书中，你将逐步学习如何使用更先进的技术，针对现实世界的业务问题提供切实可行的解决方案。

　　本书为没有数据分析和编程经验的读者编写。第1章专门为初学者讲解Pyhton和R的基础知识。此后的每一章都提供了使用Python和R解决数据科学问题的分步说明和实践演练。

　　对于那些有数据分析经验的读者而言，他们将一站式学习如何使用Python和R进行数据科学实践。本书的主题涵盖数据准备、探索性数据分析、准备建模数据、决策树、模型评估、错误分类代价、朴素贝叶斯分类、神经网络、聚类、回归建模、降维和关联规则挖掘。此外，本书还包含一些令人兴奋的新主题，如随机森林和广义线性模型。

　　本书在每章的结尾提供了大量的练习，共有500多道习题。通过实践性的分析习题，读者将能轻松应对使用真实数据集解决有趣业务问题的挑战。

---------------------------------------------------试读样章-------------------------------------------------------

第1 章

数据科学导引

1.1 为何学习数据科学

数据科学(data science)是当今全球发展最快的研究领域之一，该领域在2017 年提供

的就业机会已是2012 年的6.5 倍。预计未来对数据科学家的需求将持续井喷。举例来说，

2017 年5 月IBM 公司预测，到2020 年底对“数据科学家、数据开发人员和数据工程师”

的年需求岗位将达到近70 万个。根据http://Infoworld.com 报告，“数据科学家在美国依

然是最高端职业”的一个重要原因是“顶尖人才的短缺”。这正是我们撰写本书的动机—

—帮助培养合格的数据科学家。

1.2 何为数据科学

简而言之，数据科学就是在科学框架下对数据进行系统的分析。也就是说，数据科

学的主要工作包括：

● 数据分析的自适应、迭代和分阶段方法；

● 在系统框架内对数据进行分析；

● 发现最优模型；

● 评估并核算预测误差的实际成本。

此外，数据科学结合了：

● 数据驱动的数据统计分析方法；

● 计算机科学的计算能力和编程活力；

● 领域相关的商务智能。

目的是从庞大的数据库中发掘具有实际操作意义和市场价值的有用信息。

换句话说，数据科学可以帮助人们从现有未充分利用的数据库中提取可操作的知识。

因此，现在可以充分利用沉寂已久的数据仓库来发现数据中隐藏的价值并提高人们对数

据的认知。通过数据科学，人们能够利用大量数据和强大的计算能力解决复杂的问题，

或只有凭借数据的分析才能找到既定模式。这些发现可以带来令人激动的结果，例如对

疾病患者进行更有效的治疗或为一个企业创造更多的利润。

1.3 数据科学方法论

遵循数据科学方法论(Data Science Methodology, DSM)1，有助于数据分析师了解自身

正在执行数据分析的哪个阶段。图1.1 通过如下几个阶段说明了DSM 的自适应和迭代

特性。

1. 问题理解阶段。开发团队是否经常发现他们之前竭尽全力解决的某个问题并非预

期的问题呢？此外，营销团队和分析团队的工作目标是否常常并未达成一致呢？这一阶

段我们试图避免这些易犯的错误。

a. 首先，必须清晰阐明项目的目标；

b. 然后，将这些目标转化为一种可以用数据科学加以解决的问题。

2. 数据准备阶段。各种数据来源的原始数据很少能直接用于数据分析算法。相反，

原始数据需要被清洗以便执行后续数据分析。当数据分析师首次检查数据时，他们就会

发现难以避免的数据质量问题，并且这些问题似乎总会发生。在数据准备阶段，我们需

要解决上述问题。数据清洗/准备可能是整个数据科学处理过程中最困难的阶段。下面给

出数据准备阶段需要完成的一个非完备的任务清单。

a. 识别异常数据并决定如何处理它们；

b. 对数据进行转换和标准化；

c. 对类别变量重新分类；

d. 对数值变量进行分箱处理；

e. 添加索引字段。

数据准备阶段的详细内容参见第3 章。

3. 探索性数据分析阶段。到这一阶段，待处理数据已变得干净且整齐，现在可以开

始探索数据并试图获取一些基本信息。在此关注图形化数据探索。现在还不是应用复杂

算法的时候，相反我们希望使用简单的探索方法帮助我们获得一些对数据的初步认识。

在这一阶段，你很可能会发现只需要使用这些简单的方法，就能获悉很多信息。下面列

出一些可供采用的方法。

a. 探索自变量与目标变量之间的一元关系；

b. 探究变量之间的多元关系；

c. 基于预测值的分箱以增强数据模型；

d. 根据现有变量的组合导出新变量。

我们将在第4 章中阐述探索性数据分析阶段。

4. 设置阶段。此时，我们已基本为开始数据建模做好了准备。在这一阶段，我们还

需要先处理少量重要且烦琐的事务，例如：

a. 交叉验证，可以是2 折或n 折，这对于避免数据疏浚是必需的。此外，还需要对

数据的划分进行评估，以确保它们确实是随机的。

b. 平衡数据。这有助于提高某些算法揭示数据中所蕴含关系的能力。

c. 建立性能基准。假设曾告知你我们有一个模型能够以99%的概率正确预测某一信

用卡交易是否存在欺诈，你是否会感到吃惊呢？你应该不会，由于实际上非欺诈性的交

易概率为99.932%。因此，我们的模型可以简单地预测每一笔交易都是非欺诈性的，并

且该模型的正确率可达99.932%。这一事例说明了为数据模型建立适当性能基准的重要

性，以便可以校准模型并确定它们是否有用。

第5 章将对设置阶段加以介绍。

5. 建模阶段。在建模阶段将有机会应用各种先进的算法发现隐藏在数据中的一些确

实具有价值的关系。建模阶段是对数据进行科学研究的核心，包括以下内容：

a. 选择和实施适当的建模算法。技术应用不当将导致不准确的分析结果，这可能会

使你的公司损失大笔资金。

b. 确保我们采用的模型优于基准模型。

c. 对模型算法进行微调以优化结果。例如，是否应该加宽或加深我们的决策树？我

们的神经网络应该含有一个还是两个隐藏层？最大化我们收益的临界点应该是什么？分

析师往往需要花费一些时间对他们的模型进行微调，以便得到最佳的解决方案。

建模阶段是数据科学工作的核心，将在第6 章和第8~14 章进行详细介绍。

6. 评估阶段。你的同事可能觉得他对超级碗比赛的预测很有把握，但是他的预测究

竟有用吗？这确实是一个问题。任何人都能做出预测，但是预测相对于实际数据的表现

确实是真正的测试。在评估阶段，我们评价我们的模型的运行情况，模型是否有价值，

或者我们是否需要返工并设法改善我们的预测模型。

a. 需要根据源自设置阶段的性能基准度量对你的模型进行评估。我们是否优于猴子

投掷飞镖模型呢？如果没有，最好再尝试改进一下模型。

b. 需要确定你的模型是否真正解决了手头的问题。你的模型实际上是否达到了之前

在问题理解阶段为其设定的目标？是否没有充分考虑待解决问题的某些重要方面呢？

c. 考虑数据固有的错误代价，因为数据驱动的成本评估是模拟实际成本的最佳方

法。例如，在市场营销活动中，假阳性的代价不如假阴性的代价高。然而，对于抵押贷

款机构来说，假阳性将付出高昂的代价。

d. 你应该定制一系列模型，并确定表现最好的模型。选择单个最佳模型或少量较优

模型，然后进入部署阶段。

第7 章将介绍评估阶段。

7. 部署阶段。至此，你的模型终于为部署应用的黄金时段做好了准备！向管理层上

报你的最佳模型，并与管理层协作来调整模型以适应实际部署。

a. 编写一份结果报告可视为一个最简单的部署使用示例。在你的报告中，重点描述

管理层感兴趣的结果，要向管理层表明你解决了问题，并且尽可能说明预估的收益。

b. 你应继续参与之前的项目！参与模型部署使用中涉及的各种会议和流程，以便使

模型始终致力于解决手头的问题。

应该强调的是，DSM 是迭代和自适应的。所谓自适应，我们意指为了执行后续工作，

有时根据当前阶段获得的一些知识，我们认为有必要返回之前的某个阶段。这也正是在

图1.1 中为什么大多数阶段之间都存在双向箭头的原因。例如，在评估阶段，我们可能

会发现我们创建的模型实际上并没有解决最初提出的问题，那么就需要返回到建模阶段

开发一个能胜任的模型。

此外，DSM 是迭代式的，因为有时可以利用我们在类似问题上的经验来构建一种有

效的模型。也就是说，我们创建的模型可以用于调查相关问题的起点。这也正解释了图

1.1 中的外层一圈箭头展现了通过已有模型的持续循环，用于考察针对新问题的新解决

方案。

1.4 数据科学任务

下面列出了一些最常见的数据科学任务：

● 描述

● 估计

● 分类

● 聚类

● 预测

● 关联

接下来，将说明每个任务的具体内容以及在哪些章节介绍这些任务。

1.4.1 描述

数据科学家最常见的一项任务就是描述隐含在数据中的模式和趋势。举例来说，数

据科学家会将最可能放弃我们公司服务的客户群体描述为拨打客户服务电话次数较多且

占线时间较长的那组客户。在描述了这类客户群体之后，数据科学家会解释说拨打客户

服务电话次数较多意味着客户不满意。因此，通过与营销团队合作，数据分析师可以建

议应该采取的干预措施以设法挽留此类客户。

数据描述任务在世界各地被专家和非专业人士广泛使用。例如，当体育播音员评论

一名棒球运动员职业生涯中的平均击球率(击中数/击打数)为0.350 时，他描述的是该运

动员的职业生涯的击球表现。这是描述性统计的一个例子1，在“附录A：数据汇总与可

视化”中可以找到更多的示例。此外，本书中几乎每一章都包含描述任务的例子，包括

第4 章中的图形化EDA 方法、第10 章中的数据聚集描述以及第11 章中的二元关系。

1.4.2 估计

估计就是指使用一组自变量粗略估算数值目标变量的值。估计模型是使用目标值已

知的记录建立的，因此该模型不仅能够获悉哪些目标值与自变量的值相关联，而且该估

计模型可以估计未知的新数据的目标值。例如，数据分析师可以根据一组个人和人群的

统计数据，估算可以为某个潜在客户提供的抵押贷款金额。这种估计的模型是基于调研

之前的为客户提供贷款数额的模型构建的，这种估计要求目标变量是数值型的。估计方

法的具体内容参见第9 章、第11 章和第13 章。

1.4.3 分类

分类与估计有些类似，区别在于其目标变量是离散的而不是连续的。分类很可能是

数据科学中最常见的任务，也是最容易盈利的任务。例如，抵押贷款机构希望了解哪些

客户有可能会拖欠抵押贷款，这种情况也同样适用于信用卡公司。分类模型可以显示包

含既有客户实际违约状态的大量完整记录。因此，模型可以学习到哪些属性与违约的客

户相关联。最后，可以将这些经过训练的模型应用到新的数据中，即申请贷款或信用卡

的客户，期望这些模型有助于甄别哪些客户最可能拖欠贷款。分类方法详见第6、第8、

第9 和第13 章。

1.4.4 聚类

聚类任务旨在识别相似的记录组。例如，在一组信用卡申请人的数据中，一个聚类(或

一组数据)可能代表较年轻、受教育程度较高的客户，而另一个聚类可能代表较年长、受

教育程度较低的客户。聚类的思想是，同一个聚类中的各个记录彼此相似，但不同聚类

中的各个记录相差较大。寻找适当的聚类至少在两个方面是有用的：(1)你的客户可能对

聚类说明感兴趣，即每组客户特征的详细描述；(2)聚类本身可以用作后续分类或估计模

型的输入。第10 章将介绍聚类方法。

1.4.5 预测

预测任务也与估计或分类相似，只是预测与未来有关。例如，一位金融分析师可能

很有兴趣预测未来三个月苹果公司股票的价格。这种预测即代表估计，因为股票价格是

一种数值变量，也是一种预测，因为它与未来有关。再举一个例子，药品研制化学家可

能会对某一特定成分能否有助于为制药公司研制出畅销的新药品感兴趣。这个例子中既

有预测也有分类，因为目标变量是一种“是/否”变量，即表示药物是否能盈利。

1.4.6 关联

关联任务旨在确定哪些属性相互关联，即哪些属性“关系紧密”。数据科学家使用关

联方法，试图揭示量化两个或多个属性之间关系的潜在规则。这些关联规则通常采取“先

有前提后有结果”的形式，并且包含支持度和信任度测量。举例来说，试图避免客户流

失的营销人员可能会发现如下关联规则：“如果顾客拨打客服电话超过三次，那么该顾客

将流失”。支持度是指规则适用的记录比例，而信任度是指规则执行正确的比例。我们将

在第14 章中讨论关联任务。

1.5 习题

概念辨析

1. 简要说明数据科学的概念。

2. 数据科学涉及哪些研究领域？

3. 数据科学的目标有哪些？

4. 阐述DSM 的7 个阶段。

5. 含有一个问题理解阶段可以带来什么好处？

6. 为什么需要数据准备阶段？请说明本阶段需要处理哪三个问题。

7. 在哪个阶段数据分析师开始探索数据来了解一些简单的信息？

8. 用自己的话阐明为何需要为我们的模型确立一个性能基准。这一工作出现在哪个

阶段？

9. 数据科学研究的核心是哪个阶段？解决一个特定问题为何往往需要采用多种

算法？

10. 如何确定我们的预测是否有用？这一决定出现在哪个阶段？

11. 判断对错并解释原因：数据科学家的工作到评估阶段就结束了。

12. 解释DSM 为何是自适应的。

13. 描述DSM 的迭代特性。

14. 列举最常见的数据科学任务。

15. 上述数据科学任务中有哪些是许多非专业人士一直都在从事的任务？

16. 什么是数据估计？对于估计而言，目标变量必须满足什么条件？

17. 数据科学最常见的任务是哪一项任务？对于该任务，目标变量需要满足什么

条件？

18. 什么是聚类说明？

19. 判断对错并解释原因：预测只能用于离散的目标变量。

20. 对于关联规则而言，支持度代表什么？

大数据理论技术在行业中有哪些应用？

猜你喜欢