数据分析总结六:统计学与数据分析

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/shuryuu/article/details/85676557

1.描述性统计学

  1. 分类数据的描述性统计:单纯计数就可以
  2. 数据描述统计:
  3. 统计度量:平均数--数据分布比较均匀的情况下进行,中位数,众数,分位数(4分位、10分位、百分位)
  4. 图形:
  5. 权重预估(分位数)
  6. 数据分布(波动情况,标准差,方差)
  7. 数据标准化:

在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较

用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。

xi:数据的具体值

u:平均值

σ:标准差

  • 标准化之后一般都是在0上下直接按波动的数字,就可以反应原始数据的典型特征进行分析。
  • 但是,标准化的办法还需要根据实际数据类型确认,不同标准化办法的实际标准化意义不同。
  • 关于销量等特征与时间的关系,需要从多个时间维度去分析才能得到更多结论。如,周期、月份和年份。
  • 切比雪夫定理是一个经验定理,可以用来排除大部分异常值。数据量越大,精确度更高。

2.描述统计可视化

1.箱线图:描述一组数据的分布情况。

Excel中能直接对数据进行作图,并且还能添加许多对比条件。

2.直方图:数值数据分布的精确图形表示

  • 标准型:分布均匀,出现在大多数场景下。
  • 陡壁型:比较容易出现在收费领域
  • 锯齿型:说明数据不够稳定
  • 孤岛型:要研究分析孤岛产生的原因
  • 偏峰型:销售数据一般会产生偏锋,一般会出现长尾(或左或右)
  • 双峰型:两者数据混合一般会形成双峰

直方图引出另外一个概念:偏度,统计数据分布偏斜方向和程度的度量

正态分布:也称“常态分布”

以上公式成立是,有标准正态分布。

可以用来进行异常值排查,或者假设的数据分布。

3.概率推断统计

统计推断(statistical inference),指根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。

重要概念:贝叶斯定理

在知道结果A已经发生,想要推导出各种原因发生的可能性情况。

贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。

猜你喜欢

转载自blog.csdn.net/shuryuu/article/details/85676557
今日推荐