【数据科学】什么是数据分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011240016/article/details/85252374

数据分析是将原始数据进行排序和组织的过程,是用来帮助解释过去和预测未来的一系列方法。

数据分析不是只针对数字进行分析,而是关于:

  • 如何设定/提出问题
  • 演化解释
  • 验证假设

数据的本质

现实世界所有场景都包含数据,数据分为:

  • 结构化/非结构化
  • 连续/离散

有不同的分类方法,从更普遍的意义上来看,数据分为:

  • 分类型
  • 数值型

其中,分类型中又分为:

  • 定类:如住房类型
  • 定序:如年龄

数值型分为:

  • 离散
  • 连续

数据分析的步骤

  • 问题陈述
  • 数据准备
    • 获取数据
    • 清洗数据
    • 数据标准化
    • 数据转化
  • 数据探索
    • 探索性统计
    • 探索性可视化
  • 预测建模
  • 模型验证
  • 成果可视化与解读
  • 方案部署

数据分析问题的种类

  • 推理性问题
  • 预测性问题
  • 描述性问题
  • 探索性问题
  • 因果问题
  • 相关性问题

数据准备

这个过程一般要消耗大量时间,那么为了指引我们去处理数据,我们需要首先明确一下好的数据具备哪些特征:

  • 完整性
  • 一致性
  • 无歧义
  • 可计量
  • 正确性
  • 标准化
  • 无冗余

数据探索

使用图形,统计数据等形式来考察数据,探索的目的是发现数据中存在的模式,关联,或者关系。在这一步骤,使用数据可视化技术非常关键,它能帮助我们对数据有一个全局的认识,且能从中找到有意义的模式。

预测建模

建立模型,训练模型。并对模型的表现进行验证。

END.

参考:

《Practical Data Analysis》

猜你喜欢

转载自blog.csdn.net/u011240016/article/details/85252374