大数据之统计学基础

1. 统计学

统计学可以分为:描述统计学与推断统计学

描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。

推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。

2.均值、中位数、总数、极差、方差、标准差

对于一组数组,如果只容许使用一个数字去代表这组数据,那么这个数字应该如何选择??——选择数据的中心,即反映数据集中趋势的统计量。

均值——算术平均数,描述平均水平。

中位数——将数据按大小排列后位于正中间的数描述,描述中等水平。

众数——数据中出现最多的数,描述一般水平。

极差——最大值-最小值,简单地描述数据的范围大小

方差——在统计学上,更常用的是使用方差来描述数据的离散程度——数据离中心越远越离散。其中,X¡表示数据集中第i个数据的值,µ表示数据集的均值。

标准差——如果原数据的单位是m的话,那么方差的单位就是mˆ2,方差与原数据的单位是不一样的,两者没有可比性。为了保持单位的一致性,我们引入一个新的统计量——标准差。

2.1 均值

2.2 中位数

顾名思义,中位数就是将数据按大小顺序(从大到小或是从小到大都可以)排列后处于中间位置的数。若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算术平均数。

2.3 众数

众数——数据中出现次数最多的数(所占比例最大的数)。一组数据中,可能会存在多个众数,也可能不存在众数。众数不仅适用于数值型数据,对于非数值型数据也同样适用。

2.4 均值、中位数、众数的优劣势

  优点 缺点
均值 充分利用所有数据,适用性强 容易受到极端值影响
中位数 不受极端值影响 缺乏敏感性
众数 当数据具有明显的集中趋势时,代表性好;不受极端值影响 缺乏唯一性:可能有一个,可能有两个,可能一个都没有

2.5 方差

方差公式:,方差公式经过变形后可以简化为

方差分总体方差与样本方差。总体方差:,样本方差:

 2.6 标准差

标准差:,有效地避免了因单位平方而引起的度量问题。与方差一样,标准差的值越大,表示数据越分散。

3. 统计学直观图表

原数据太杂乱无章,难以看出规律性;只依赖数字来描述集中趋势与离散程度,让人难以对数据产生直观的印象,这时就需要用到图表。

3.1 直方图

频数分布表

频数直方图

频率直方图

3.2 箱线图

上边缘:除异常点以外的数据中的最大值

上四分位数:将所有数据按照从小到大的顺序排序排在第75%位置的数字

下四分位数:将所有数据按照从小到大的顺序排序排在第25%位置的数字

下边缘:除异常点以外的数据中的最小值

3.3 茎叶图

将数据分为茎和叶两部分,这里的茎是指十位上的数字,叶是指个位上的数字。将茎部分(十位)从小到大,从上到下写出来。相对于各自的茎,将同一茎(十位)的叶子(个位)从小到大,从左往右写出来。

3.4 线图

3.5 柱形图

柱形图:显示一段时间内的数据变化或显示各项之间的比较情况。

3.6 饼状图

饼状图,根据各项所占百分比决定在饼图中的扇形面积。简单易懂,通俗明了,可以更加形象地看出各个项目所占的比例大小。

猜你喜欢

转载自www.cnblogs.com/swordfall/p/9576927.html
今日推荐