七周成为数据分析师 第六周:统计学

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Julialove102123/article/details/89334252

1.描述性统计学

分类数据的描述性统计:单纯计数就可以

数据描述统计:

  1. 统计度量:平均数–数据分布比较均匀的情况下进行,中位数,众数,分位数(4分位、10分位、百分位)
  2. 图形:

权重预估(分位数):

数据分布(波动情况,标准差,方差)

数据标准化:

在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较

用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。

xi:数据的具体值

u:平均值

σ:标准差

  • 标准化之后一般都是在0上下直接按波动的数字,就可以反应原始数据的典型特征进行分析。

  • 但是,标准化的办法还需要根据实际数据类型确认,不同标准化办法的实际标准化意义不同。

  • 关于销量等特征与时间的关系,需要从多个时间维度去分析才能得到更多结论。如,周期、月份和年份。

切比雪夫定理:

是一个经验定理,可以用来排除大部分异常值。数据量越大,精确度更高。 

2.描述统计可视化

1.箱线图:描述一组数据的分布情况。

Excel中能直接对数据进行作图,并且还能添加许多对比条件。

2.直方图:数值数据分布的精确图形表示

  • 标准型:分布均匀,出现在大多数场景下。

  • 陡壁型:比较容易出现在收费领域

  • 锯齿型:说明数据不够稳定

  • 孤岛型:要研究分析孤岛产生的原因

  • 偏峰型:销售数据一般会产生偏锋,一般会出现长尾(或左或右)

  • 双峰型:两者数据混合一般会形成双峰

直方图引出另外一个概念:偏度,统计数据分布偏斜方向和程度的度量

正态分布:也称“常态分布”

以上公式成立是,有标准正态分布。

可以用来进行异常值排查,或者假设的数据分布。

3.概率推断统计

统计推断(statistical inference),指根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。

重要概念:贝叶斯定理

 案例:

如果某种疾病的发病率为千分之一。现在有一种试纸,它在患者得病的情况下,有99%的准确率判断患者得病,在患者没有得病的情况下,有5%的可能误判患者得病。现在试纸说一个患者得了病,那么患者真的得病的概率是多少?

  • P(A1)代表是真实患者的概率
  • P(A2)代表是健康人群的概率
  • P(B)代表试纸查出患者的概率
  • P(B|A1)为真实患者条件下试纸查出患者的概率,即99%
  • P(B|A2)为健康人群条件下试纸误判为患者的概率,即5%
  • P(A1)为真实患病率0.1%,
  • P(A2)为健康率99.9% 

在知道结果A已经发生,想要推导出各种原因发生的可能性情况。

贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。

重要概念:其他分布

  • 二项分布
  • 泊松分布
  • 正态分布
  • 假设检验:A/B测试、Z测试。

猜你喜欢

转载自blog.csdn.net/Julialove102123/article/details/89334252