七周成为数据分析师07_统计学基础

拿到数据之后,我们应该怎么做?

直接套用各种图表公式进行分析并不是一个好做法。因为众多分析思路和公式都是基于数据服从一定分布的前提,如果不了解数据质量和分布情况,做推断分析是事倍功半的。

正确的处理方法是先使用描述统计

描述统计学

描述统计学是一种概括数据集的方式,包括数据的加工和显示,数据集的分布特征等。它与推断统计相呼应。

首先把数据分为分类数据和数值数据。二者最显著的区分在于分类数据不可做加减,而数值数据可以。

分类数据主要应用频数统计,对各分类数据进行计数。

数值数据则是描述统计的重点。

数据的度量

1. 平均数:平均数容易受到极值的影响,进而“被平均”

2. 中位数:处于数据排序后最中间的数值

3. 众数:众数使用的频次较低,更多用于分类数据中

4. 四分位数:将数据排序后划分为四等分,能辅助衡量数据的分布状态。其中第二四分位数(Q2)即中位数

5. 方差:描述数据的离散程度

方差越大,说明数据的波动越大,数据集的离散程度越大。

Excel中,总体方差:VARP(), 样本方差VAR()

6. 标准差:方差的开平方

标准差同方差衡量的意义一致,但标准差更容易与平均数等指标进行度量。

Excel 中,总体标准差为:stdevp(),样本标准差为stdev()

7. 数据标准化 Z-Score

Z-Score是数据标准化的一种,它将一组数据转化为均值为0标准差为1的标准正态分布。

标准化有助于不同量纲间的数据进行比较,和助于清晰展现一组数据间的变化

8. 切比雪夫定理

至少有75%的数据,位于[μ-2σ, μ+2σ]内

至少有89%的数据,位于[μ-3σ, μ+3σ]内

至少有96%的数据,位于[μ-5σ, μ+5σ]内

 七周成为数据分析师的课程,还有最后一周属于 Python 相关基础知识。因为个人已经有 Python 基础知识,也已经使用 Python 这门语言一段时间了,就不对它再做一些笔记。

相关的文字资料可以查看:

如何七周成为数据分析师22:用pandas进行数据分析实战

如何七周成为数据分析师21:Python分析之numpy和pandas入门

猜你喜欢

转载自www.cnblogs.com/xingyucn/p/10404290.html