第1章统计与数据第2章数据的描述方法

统计的应用可以分为描述统计（即报表）和推断统计（即预测建模）
样本来源于总体，是试验的产物，变量是每个试验单元的特征或属性
推断统计的五要素：总体、变量、样本、推断、可靠性
过程是讲输入转化为输出的一系列行动或操作，过程产生的一系列输出被称为样本
所有数据可以分为定量数据或定性数据
有代表性的样本指变量取值可以代表总体特征的样本
获取有代表性的样本的方法有：
1. 简单随机抽样
2. 分层随机抽样
3. 整群抽样
A(mn)=n!/(n-m)!;C(mn)=n!/m!(n-m)!
偏差有选择偏差、无应答偏差、测量误差

类别是指定性数据被分成几个种类之一；类别频率是指属于某个类别的观测个数；
1. 类别相对频率=类别频率/类别总数
样本方差s^2的除数为(n-1)使s^2使总体方差的一个无偏估计量
1. 在实际应用中，求出样本方差不是目的，是为了进一步预测总体方差才找出的
2. 总体方差的除数为总体样本数
利用均值和标准差来描述数据集
1. 切比雪夫法则
2. 经验法则：适用于土墩形且对称的数据集
  1. 大约有68%的观测值落在总体均值±1*总体标准差的总体范围内
  2. 大约有95%的观测值落在总体均值±2*总体标准差的总体范围内
  3. 大约有99.7%的观测值落在总体均值±3*总体标准差的总体范围内
3. 有时，会用极差/4来得到一个较大的保守的标准差值；前提是土墩形数据
p百分位点：对于升序数据集，第p个百分位点即有p%*N个预测值比它小，其余比它大
1. 四分位数即
  1. QL下四分位
  2. QM中位数
  3. QU上四分位
z得分=(x-样本均值)/样本标准差
在数据集中，异常值：
1. 被错误记录的数据
2. 来自不同的总体
3. 来源正确，描述了一个稀有的事件
常见的检测异常值的方法
1. 箱线图
2. z得分
箱线图基于四分位差：IQR=QU-QL
1. 上内栏=QU+1.5IQR
2. 下内栏=QL-1.5IQR
3. 上外栏=QU+3IQR
4. 下外栏=QL-3IQR
5. 落在内栏和外栏之间的观测值用*表示；在外栏外的用0表示
6. 其实*即可疑的数据（或z的绝对值>2）；0即高度可疑值（或z的绝对值>3）
随着时间的推移产生并得到监控的数据即时间序列数据

第1章 统计与数据 第2章 数据的描述方法

猜你喜欢

第1章统计与数据第2章数据的描述方法