描述性统计学 Descriptive Statistics
对原始数据集进性归纳就是描述性统计学所做的事。我们深知,数据越多,事实越模糊,因此需要简化。我们将一系列复杂的数据序列减少为几个能够起到描述作用的数字,这些数字为我们提供了一个争对原始数据的可操作、有意义的概括。
坏消息是,任何一种简化都会面临被滥用的风险。
数字特征
- 集中趋势 (Central Tendency of Location)
- 变异 (Dispersion)
- 偏态 (Skewness)
- 峰态(Kurtosis)
集中趋势
某套数据的中间位置
常用的集中趋势指标
- 平均值(容易受异常值的影响)
- 中位数 (还有四分位数)
- 众数
思考问题:
何时用平均数?何时用中位数或众数?
有一个常识:当一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的。
中位数的好处是描述了具体值在与其他数据进行比较时所处的位值。
举例:
假如你接到一个任务,分析比较你的公司和竞争对手公司产品保修期内出现的质量返修问题。
利用集中趋势:
问题:你和竞争对手公司产品质量体验总体如何?
1.平均数: 对于数据分布的中间位置,最基本的估量方法就是求平均数。具体到这个例子就是求:平均每个产品的质量问题有多少个?问题数/销售数
2. 中位数:不受异常值影响
tips:可以利用频数分布图进行数据分布探索。
变异(离中趋势)
数据间差异大小或数值变化的一个量数
- 变异数 (Variance)
- 标准差 (Standard Deviation):数据相对与平均值的分散聚合程度
- 变异系数 (Coefficient of Variation)
- 全距 (Range)
思考问题:
衡量离散程度的重要性
通过标准差可以得到什么结论?
是否异常和数值多少
偏态
用来说明一种数据分布的形态
偏态系数
单峰分布有三种分布形态
- 对称 :平均值 = 中位数
- 左偏 负偏:平均值 < 中位数
- 右偏 正偏 :平均值 > 中位数
峰态
峰度系数
峰度系数 = 0:常态峰
峰度系数 <0 :低阔峰
峰度系数 >0 :高峡峰
tips:
1、盒须图:图形可呈现出资料的集中趋势,变异,偏态,最大值,最小值等,可用于发现离群值与数组间的比较。
2、在使用统计量比较数据时,使用百分比可以赋予其意义,表示某个数字相对于其他事物的变化值。|新数据 - 原数据| / 原数据
正态分布 Normal Distribution
数据的分布一般来说都是对称的,以平均数为轴呈现类似与钟的形状。
数据分布特点:
有68.2%的数值落在u 正负一个标准差的范围内
有95.4%的数值落在u 正负二个标准差的范围内
有99.7%的数值落在u 正负三个标准差的范围内