数据科学的定义、简史和主要工作流程

一、数据科学的定义

简单来说，数据科学是通过各种科学方法、算法和流程研究数据、让数据产生价值，创造有影响力的预测和见解辅助决策的一门综合性学科。

维基百科是这样定义的：数据科学（英语：Data Science），又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

英文词条的定义与中文略有差异，能帮助我们进一步理解数据科学的概念：

英文词条Data Science：Data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from data in various forms, both structured and unstructured, similar to data mining.

Data science is a “concept to unify statistics, data analysis, machine learning and their related methods” in order to “understand and analyze actual phenomena” with data. It employs techniques and theories drawn from many fields within the context of mathematics, statistics, information science, and computer science.

作为当今最受欢迎的科学和商业领域之一，关于数据科学的定义还有很多种描述。

1.数据科学是从“数据层次“研究”现实世界”的问题，并根据“数据世界”的分析结果，对“现实世界”进行预测、洞见、解释和决策的新兴科学。在对数据进行分析、抽取信息和知识的过程中提取指导和支持的基本原则和方法。

2.数据科学关注分析数据并从中提取有用的知识。构建预测模型通常是数据科学家最重要的活动。

3.数据科学融合了各种工具，算法和机器学习原理，旨在从原始数据中发现隐藏的模式。

4.数据科学可以定义为一种方法，通过该方法可以从数据中推断出可操作的见解。数据科学家从大量数据中获得洞察力，以帮助公司做出更明智的业务决策。

在这里插入图片描述

总之，数据科学是一个跨学科领域，其宗旨是从各类数据中提取出价值，实现学术到应用的转变。

数据科学正在影响着我们生活的方方面面，那么这门科学是如何兴起的？

二、数据科学简史

数据科学的起源最早可追溯到20世纪60年代。

1962 年，John W. Tukey 在“数据分析的未来”中写道——数据科学史上的第一个里程碑因聪明的美国数学家 John Tukey 而获得全球认可。

事实上，John Tukey 在统计方面影响巨大，他的最著名的造币与计算机科学有关，是第一个将“位”一词作为“二进制数字”的缩写引入的。

在这里插入图片描述

1974年，计算机科学家、图灵家获得者Peter Naur在《Concise Survey of Computer Methods》（计算机方法的简明调查）中最早提出了数据科学（Data Science）的概念，将其定义为“"处理数据的科学，一旦数据与其代表事物的关系被建立起来，将为其他领域与科学提供借鉴。”当时Naur的初衷是为了补充“计算科学”（Computer Science）的概念，定义较为简单。

1977年，国际统计计算协会(IASC)作为国际统计协会（ISI)的一个分支组织正式成立。“IASC的使命是整合传统统计方法、现代计算机技术，以及行业专家的知识，以将数据转化为信息与知识。”

在这里插入图片描述

20世纪80年代，计算机技术与统计学开始交汇。

1994 年《商业周刊》发表了一篇关于“数据库营销”的封面故事，揭露很多公司开始大量收集个人信息，并计划以此开展一些营销活动。

1996年，国际分类学会联合会（IFCS）在东京召开了两年一次的国际大会。“数据科学”这一术语首次被用于大会标题中(会议标题为:“数据科学、分类、及相关方法”)。

2001年，美国统计学教授威廉.s.克利夫兰发表了《数据科学：拓展统计学的技术领域的行动计划》，有人认为是克利夫兰首次将数据科学作为一个单独的学科，并把数据科学定义为统计学领域扩展到以数据作为研究对象、与信息和计算机科学技术相结合的学科，奠定了数据科学的理论基础。

2005 年 5 月，一份巴布森学院工作知识研究中心的报告《分析的较量》中提到了现代企业开始应用统计量化方法和预测模型作为竞争的主要部分（这项研究后来被扩展成《分析的较量：胜利的新科学》一书）。9月，“数据科学家"一词在一篇政府报告中第一次被给予了定义。美国国家科学委员会出版的《长存的数码数据收集：使 21 世纪的研究与教育成为可能》报告中将数据科学家定义为"信息与计算机科学家，数据库与软件工程师与程序员”。

2008年7月，日本工业标准调查会出版了一项题为《数据科学家与管理者的技能、角色、职业结构：对现有实践与未来需求的评估》的报告，其中把数据科学家定义为"进行创造性探寻与分析，掌握数据库技术，能通过数码数据开展工作的人士。"

2009年1月，谷歌的首席经济学家哈尔.瓦里安告诉《麦肯锡季报》：“驾驭数据的能力——能够理解它，处理它，从中提取价值，可视化，进行沟通——这将是未来几十年非常重要的技能。因为现在我们有免费的无处不在的数据。所以，所需的稀缺要素是理解数据并从中提取价值的能力……我真的认为这些能力——接触、理解、传达来自数据分析的洞察——会是极其重要的。”

三、数据科学工作流程

数据科学的整个工作流程包括：理解商业问题、数据收集、数据清洗和准备、模型构建、评估和部署、结果可视化。
在这里插入图片描述

理解商业问题：通过理解商业问题，把通常的业务人员习惯用的描述性语言，转变为具体的科学性语言，探索是否有适当的数据可用于开发针对该问题的数据驱动型的解决方案，实现“数据驱动决策”目标。

据调查，在机器学习过程中，花费在数据收集、清洗和准备的时间占比80%。而剩余20%的时间则是利用机器学习算法进行数据挖掘或者建模。数据收集、清洗和准备是机器学习阶段非常重要的过程，对于机器学习结果影响重大。

数据收集

收集数据并对原始数据进行处理，使之能够用于数据分析或者机器学习模式训练，是一个识别、收集、合并、预处理一个或多个数据集合的处理过程，为后续数据清洗做准备。

数据清洗

在数据集收集、合并处理之后，下一个工作是清洗。未清洗的数据存在混乱和一些常见问题，包括数值缺失，数据存在不一致的记录。如果数据中包含数值数据，就需要更加严格地检查是否存在异常值。可以通过统计分析方法来发现数据中的异常值，这些方法包括平均值、标准差等。

数据准备

数据准备，又称为数据预处理。在该环节中，要对已经清洗过的数据集进行数据标准化。通过数据标准化，可以把输入数据转化为平均分布在机器学习算法可接受范围内的数据。

在数据准备阶段，另一个有用的技术是把分类数据转化为数值数据。假设，在一个数据集内包含一系列符号，代表一个特征值，诸如：{T0…T5}。作为一个字符串，对于神经网络是无用的，就需要通过one-of-K（也称为one-hot编码）方案把字符值转化为数值。

模型构建

建模阶段是使用自动算法从数据中提取有用模式并对这些模式进行编码的阶段，在计算机科学领域，机器学习专注于此类算法的设计。

在机器学习阶段，需要生成和验证机器学习模型。在有些情况下，机器学习模型是一个产品，部署在应用环境中，用于提供具体的功能服务（诸如分类或预测）。在其他情况下，机器学习只是实现目标的手段。产品不是受过训练的机器学习算法，而是其产生的数据。

机器学习根据学习方法分为三类：监督式学习、非监督式学习、强化学习。

监督式学习，顾名思义，就是指由结果评估驱动，基于模型运行结果来调整模型。给定一个类相关数据集合，训练算法以生成正确的类，如果结果不符合要求，就调整模型。训练该模型直到其结果达到一定的准确度，此时就可以应用该模型来预测分析未来数据。

非监督式学习，该模式要检查相关数据，并基于数据结构把这些数据分组。可以把这类算法应用于推荐系统，基于客户浏览或者购买历史来把客户分组。

最后，强化学习是一个半监督式学习算法，该学习方案提供一个奖励机制，在利用模型进行多次决策并产生满意结果的情况下进行奖励。

模型评估

评估阶段涉及在业务需求这个更广泛的上下文中评估模型，重要的是评估是否能够实现在第一阶段中计划的目标，确定所有关键发现，与利益相关者进行交流，确定模型是否满足业务目标。

模型部署

机器学习阶段的成果是能够应用于未来数据的模型，模型可以部署在生产环境中来处理新产生的数据。模型可以是一个预测系统，处理历史数据，提供相关机构运营特征的分类数据。

部署阶段涉及确认如何将所选模型部署到业务环境中。这涉及规划如何将模型集成到组织的技术基础架构和业务流程中。最好的模型是无缝适应当前技术栈和业务流程的模型。

结果可视化

模型提供各种方式来产生数据产品，用以回答原始数据集相关的问题。传达信息的方式很关键，为数据产品创建可视化，向更多非技术背景的听众讲述一个清晰且可操作的故事，以对组织有用的方式呈现发现，向更多的观看者展示数据科学的意义和成果。

正如 John Tukey 所预测的那样：“数据分析的未来可能涉及巨大的进步、克服现实困难以及为所有科学技术领域提供卓越的服务。”随着运营数据的不断增长和新技术的不断涌现，我们越来越需要专业的分析敏锐度，从海量数据中提取有价值的信息和洞察力，并做出准确的决策。未来优秀的数据科学家，将熟练掌握解决现代世界复杂问题所需的综合技能，在企业的业务发展战略中发挥至关重要的指导作用。

数据科学的定义、简史和主要工作流程

猜你喜欢