4. 数据统计分析基础知识

什么是数据分析

  • 专业

    有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术

  • 客观

    从行业的角度看,数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程

  • 本质

    数据分析包括3个方面:目标、方法和结果。
    1. 目标:数据分析的关键再与设立目标,专业上叫做『有针对性』
    2. 方法:数据分析的方法包括统计分析和数据挖掘
    3. 结果:数据分析最终结果要得出分析的结果,结果对目标解释的强弱,结果的应用效果如何。

数据分析六步曲

数据分析六部曲图

明确分析目的和内容

对数据分析目的的把握是数据分析项目成败的关键。

  • 数据分析的对象是什么?
  • 数据分析的目的是什么?
  • 最终的结果是要解决什么业务问题?

数据收集

如何准确有效的收集数据,从而客观全面地反映要研究的问题的真实情况。

数据处理

数据预处理是指对收集到的数据进行加工、整理,以便开展后续的数据分析。
数据预处理主要包括以下几个步骤:

  1. 数据审查

检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与研究目的要求一致,是否全面,包括利用描述性统计分析,检查各个字段的字段类型,字段的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。

  1. 数据清理

对数据审查中发现的错误值、缺失值、异常值、可疑数据,选用适当的方法进行清理。

  1. 数据转换

不同字段由于计量单位不同,往往造成数据不可比。需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化、归一化等。

  1. 数据验证

初步评估和判断数据是否满足统计分析的需求,从而决定是否需要增加或减少数据量。利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关性分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中。

上面4个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值和空值个数等),接着对发现的问题进行处理,即数据清理;再就是提高数据的可比性,对数据进行一些变换,使数据形式上满足分析的需要;最后则是进一步检测数据内容是否满足分析需要,诊断数据的真实性及数据之间的协调性等。

数据分析

数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。

  • 常用的数据分析方法

    1. 要掌握期望、方差、中位数、众数等数据描述方法;
    2. 要了解回归、分类、聚类、时间序列数据分析等方法的原理、使用范围、优缺点和结果的解释
  • 常用的数据分析工具

    SPSS, R, Matlab, SAS, Python等

数据展现

一般情况下,数据分析的结果都是通过图、表的方式来展现。

常用的图表包括:饼状图、折线图、柱状图/直方图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等。

报告撰写

最后阶段,就是撰写数据分析报告,对整个数据分析成果进行呈现。

通过报告,把数据分析的目的、过程、结果及方案完成的呈现出来。

数据分析报告要有明确的结论、建议和解决方案,而不仅仅是找出问题,更重要的是解决问题。

Reference

  1. 从零进阶!数据分析的统计基础(第2版)

猜你喜欢

转载自www.cnblogs.com/bermaker/p/9163927.html