版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011240016/article/details/85252374
数据分析是将原始数据进行排序和组织的过程,是用来帮助解释过去和预测未来的一系列方法。
数据分析不是只针对数字进行分析,而是关于:
- 如何设定/提出问题
- 演化解释
- 验证假设
数据的本质
现实世界所有场景都包含数据,数据分为:
- 结构化/非结构化
- 连续/离散
- …
有不同的分类方法,从更普遍的意义上来看,数据分为:
- 分类型
- 数值型
其中,分类型中又分为:
- 定类:如住房类型
- 定序:如年龄
数值型分为:
- 离散
- 连续
数据分析的步骤
- 问题陈述
- 数据准备
- 获取数据
- 清洗数据
- 数据标准化
- 数据转化
- 数据探索
- 探索性统计
- 探索性可视化
- 预测建模
- 模型验证
- 成果可视化与解读
- 方案部署
数据分析问题的种类
- 推理性问题
- 预测性问题
- 描述性问题
- 探索性问题
- 因果问题
- 相关性问题
数据准备
这个过程一般要消耗大量时间,那么为了指引我们去处理数据,我们需要首先明确一下好的数据具备哪些特征:
- 完整性
- 一致性
- 无歧义
- 可计量
- 正确性
- 标准化
- 无冗余
数据探索
使用图形,统计数据等形式来考察数据,探索的目的是发现数据中存在的模式,关联,或者关系。在这一步骤,使用数据可视化技术非常关键,它能帮助我们对数据有一个全局的认识,且能从中找到有意义的模式。
预测建模
建立模型,训练模型。并对模型的表现进行验证。
END.
参考:
《Practical Data Analysis》