第1章 统计与数据 第2章 数据的描述方法

  1. 统计的应用可以分为描述统计(即报表)和推断统计(即预测建模)
  2. 样本来源于总体,是试验的产物,变量是每个试验单元的特征或属性
  3. 推断统计的五要素:总体、变量、样本、推断、可靠性
  4. 过程是讲输入转化为输出的一系列行动或操作,过程产生的一系列输出被称为样本
  5. 所有数据可以分为定量数据或定性数据
  6. 有代表性的样本指变量取值可以代表总体特征的样本
  7. 获取有代表性的样本的方法有:
    1. 简单随机抽样
    2. 分层随机抽样
    3. 整群抽样
  8. A(mn)=n!/(n-m)!;C(mn)=n!/m!(n-m)!
  9. 偏差有选择偏差、无应答偏差、测量误差
  1. 类别是指定性数据被分成几个种类之一;类别频率是指属于某个类别的观测个数;
    1. 类别相对频率=类别频率/类别总数
  2. 样本方差s^2的除数为(n-1)使s^2使总体方差的一个无偏估计量
    1. 在实际应用中,求出样本方差不是目的,是为了进一步预测总体方差才找出的
    2. 总体方差的除数为总体样本数
  3. 利用均值和标准差来描述数据集
    1. 切比雪夫法则
    2. 经验法则:适用于土墩形且对称的数据集
      1. 大约有68%的观测值落在总体均值±1*总体标准差的总体范围内
      2. 大约有95%的观测值落在总体均值±2*总体标准差的总体范围内
      3. 大约有99.7%的观测值落在总体均值±3*总体标准差的总体范围内
    3. 有时,会用极差/4来得到一个较大的保守的标准差值;前提是土墩形数据
  4. p百分位点:对于升序数据集,第p个百分位点即有p%*N个预测值比它小,其余比它大
    1. 四分位数即
      1. QL下四分位
      2. QM中位数
      3. QU上四分位
  5. z得分=(x-样本均值)/样本标准差
  6. 在数据集中,异常值:
    1. 被错误记录的数据
    2. 来自不同的总体
    3. 来源正确,描述了一个稀有的事件
  7. 常见的检测异常值的方法
    1. 箱线图
    2. z得分
  8. 箱线图基于四分位差:IQR=QU-QL
    1. 上内栏=QU+1.5IQR
    2. 下内栏=QL-1.5IQR
    3. 上外栏=QU+3IQR
    4. 下外栏=QL-3IQR
    5. 落在内栏和外栏之间的观测值用*表示;在外栏外的用0表示
    6. 其实*即可疑的数据(或z的绝对值>2);0即高度可疑值(或z的绝对值>3)
  9. 随着时间的推移产生并得到监控的数据即时间序列数据

猜你喜欢

转载自blog.csdn.net/u013103305/article/details/83536156