01.数据科学的简单介绍(概论)

前言:文章基于人大的《数据科学概论》,主要是总结第一章—数据科学概论 的一些重点内容。里面有些比较细的概念,有心的读者可以自己去查找资料。

1.1数据科学的定义

(1)数据科学

数据科学是对数据进行分析,抽取信息和知识的过程,提供指导和支持的基本原则和方法的科学。

数据科学的核心任务是从数据中抽取信息、发现知识。

数据科学包含一组概念、原则、过程、技术/方法、工具为其核心任务服务。

1.2数据科学和统计学、人工智能机器学习、数据挖掘、数据库与数据处理、大数据分析、基于数据的决策 的关系

(1)数据科学跨学科的特点

数据科学是基于计算机科学(数据库、数据挖掘、机器学习等)、统计学、数学等学科的一门新兴的交叉学科。从统计学、人工智能、机器学习、数据挖掘、数据库与数据处理、大数据分析等领域,吸取有效的成分,不断创建起来。

(2)数据科学与数据库、大数据分析的关系

数据库的运行,积累了大量的基础信息,为数据科学提供了重要的“原材料”。

大数据分析是(机器学习与数据挖掘),是数据科学的有效组成部分。

(3)数据科学与基于数据的决策的关系

1、基于数据的决策:人们基于数据分析的结果进行决策,而不仅仅是基于直觉,拍拍脑袋进行决策。

2、数据科学的目的:通过分析理解数据、获得洞察力,它包含一系列的基本原则、过程、技术/方法、和工具。

二者的关系:***故数据科学是为基于决策服务的***即我们从数据中挖掘其隐藏的模式,获得新知,目的是指导我们新的行动

1.3数据科学家

数据科学家需要的技能:拥有一系列的知识和技能,包括一定的数学基础、统计分析、机器学习、数据挖掘、数据可视化、编程能力、对具体应用领域的深入了解、以及良好的沟通能力。

1.4数据科学的基本原则

(1)原则1:数据分析可以划分成一系列明确的阶段

分析数据、获得知识,从而解决具体的业务问题,是数据科学的核心任务。这个任务可以划分为 理解业务数据、收集数据、对数据进行集成、对数据进行分析挖掘、对结果进行可视化、把结果表达给目标听众等阶段。

(2)原则2:描述性分析与预测性分析

描述性分析:面向过去,发现隐藏在数据表面之下的历史规律或模式。

预测性分析:面向未来,对现有的数据进行深度分析,构建分类/回归模型,对未来趋势进行预测。

总结:简单了来说,原则2就是对数据分析的结果进行评估,需要结合所处的应用程序上下文环境进行仔细考察。

(3)原则3:实体的相似度

从大量的基础数据中,我们可能分析出变量之间的相关性。

(4)原则4:模型的泛化能力

在一些属性上相似的实体,在其他属性上(可能是未知的一些属性)一般也是相似的。

计算相似度是数据科学的基本方法。

(5)原则5:分析结果的评估与特定的应用场景有关

在现有的数据上适配很好的模型(分析结果),可能不能很好地泛化,即不能适配到新数据上。----------过度拟合

在这里插入图片描述

(6)原则6:相关性不同于因果关系

相关性:数据多了,a发生时b发生的概率足够明显,那么a和b就是相关的。

因果性:是逻辑上的概念,前者的出现必然导致后者,a发生导致b发生。

总结:当我们从数据分析结果中,试图得出一些因果关系的结论的时候,我们必须考虑到一些额外的因子。(有可能先前没有考虑进来)

(7)通过并行处理提高数据处理(分析)速度

程序=数据结构+算法

数据科学=数据+数据上的计算

1、任务并行:多个进程对数据进行处理

2、数据并行:依赖于数据的划分

即把整个数据集(大规模),划分成一系列小的数据集,然后利用多个进程对这些小的数据进行并行操作,以达到提高数据处理速度的目的。

1.5数据处理流程:一种横向视角

(1)数据的生命周期

包括数据的产生、数据的表示和保存、数据的销毁等各个阶段。

(2)冷数据和热数据

经常用到的数据叫热数据,暂时不用的历史数据是冷数据

(3)数据处理的流程

  • 数据采集
  • 数据表示和存储
  • 数据清洗–剔除错误
  • 数据集成
  • 数据分析
  • 数据可视化
  • 基于数据的决策

1.6数据处理系统的架构

(1)一种纵向视角:

数据处理系统包括:硬件平台、存储、检索和分析、应用

(2)三种处理模式

  • 批处理:数据先保存起来,然后分析(全量数据);响应时间较久,为分钟/小时计。
  • 流式处理:数据及时处理,处理过后一般不保存;响应时间以秒计时。
  • 交互式处理:数据先保存起立,然后查询(部分数据);响应时间毫秒计时。

(3)Lambda架构

这三种不同的处理模式整合起来就是Lambda架构。

分为三个层次:

  • 批处理层(Batch Layer)
  • 实时处理层(Speed Layer)
  • 服务层(Serving Layer)

在这里插入图片描述

1.7数据的多样性:一种空间视角

我们可以采集到很多的数据,类型丰富多样,我们把这些数据分成三类

(1)三类数据

1、结构化数据:主要指的是符合关系数据模型的二维表数据。

2、半结构化数据:包括各种包含结构标记(Tag)的HTML网页、XML文档、RDF数据等。

3、非结构化数据:包括文本数据、图数据以及各种多媒体数据。

(2)不同数据在计算机里面的表示

1、实体及其关系:轨迹数据、时序数据可以用关系模型描述

2、文本:布尔模型、TF、IDF、Embedding…

3、社交网络:邻接矩阵、边列表、邻接关系列表…

1.8数据价值的挖掘:一种价值提升视角

数据价值的提升:

  • 原始数据,一般数据量大,数据的价值低,有可能包含噪声(错误数据)
  • 经过数据清洗,获得高质量的数据,来自不同数据源的数据需要集成
  • 对数据的分析方法,从简单到复杂,包括简单统计和报表、复杂分析包括统计分析、数据挖掘、机器学习方法。
  • 经过适当地分析,可以挖掘到数据中隐藏的模式、相关性
  • 在普适的一些模式的基础上,我们继续抽象出知识。知识是比模式、相关性等更加具有普遍性的规律。

猜你喜欢

转载自blog.csdn.net/weixin_48931875/article/details/111153213
01.