统计学学习笔记

统计学学习笔记

《深入浅出统计学》

大纲

1.统计学的作用
2.集中趋势的量度
3.分散性与变异性的量度
4.概率计算
5.离散概率分布的运用
6.排列与组合
7.几何分布、二项分布和泊松分布
8.正态分布的应用
9.超越正态分布的应用
10.统计抽样的应用
11.总体和样本的估计
12.置信区间的构建

统计学的作用

1.统计学可以帮助企业做出客观的决策,能够进行精准地预测
2.统计学能够使我们个人避免遭人愚弄

  1. 信息与数据的区别:
    • “数据”是指所收集的原始事实与数字。
    • “信息”是指加入了某种意义的数据
      例如 ,数字5、6、7 只是数字,并不知道有何含义——数据
      告诉这几个数代表三个孩子的年龄,数据有意义了——信息

集中趋势的量度

  1. 均值
    容易受异常值和偏斜数据的影响
  2. 中位数
  3. 众数

分散性和变异性的量度

1.极差
区分数据集分散程度,最大值-最小值

2.四分位数

  • 将数据一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数。
  • 四分位距:中间的四分位数即中位数。
  • 四分位的优点是:与全距相比,较少受到异常值的影响。只关注居于数据中央的50%的数据,这样才能排除异常值的干扰。

3.十分位数,百分位数
第K百分数数即位于数据范围K%处的数值

4.可用箱线图绘制各种“距”

5.方差
方差是衡量数据分散性的一种方法,是数值与均值的距离的平方数的平均值

计算方差常用公式

6.标准差
标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。
度量数据的分散性

7.标准分
对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。

标准分求解

概率统计

  1. 众数
  2. 概率

概率计算公式

3.条件概率

条件概率

4.全概率公式

与A一起发生,不与A一起发生

5.贝叶斯公式

贝叶斯公式

树轴法

离散概率分布的应用

1.期望:描述的是概率分布

期望

2.方差和标准差——度量一些特定数值的概率的分散情况的方法

方差越高,表示你的整体收益变化越大,整体的赢钱数额更不可预期,整体收益的可靠性越低。方差越小,每一局的平均收益就越接近期望值。

方差

3.线性变换
如果成本+1,奖赏变为5倍,期望和方差成线性变化

线性变换

4.独立观测的期望和方差

独立观测

排列与组合

  1. 排位方式

image.png

2.按类型排序

image.png

3.排列
从N个对象中取出R个对象进行排序,并得出排序方式总数目

排列

4.组合
从N个对象中选取r 个对象,不必知道所选对象的确切顺序

组合

几何分布、二项分布、泊松分布

  1. 概率的几何分布
    几何分布的应用条件:进行多次互相独立的试验,每一次试验都存在失败或成功的可能性。

几何分布

需要试验r次以上

需要试验r次或不到r次

期望值

方差

2.二项分布
二项分布使用的条件:进行一系列独立试验,每一次试验成功的概率都相同,且试验次数有限。

二项分布

image.png

期望值

方差

3.泊松分布
使用条件
在遇到独立事件时,若已知 r 且你感兴趣的是一个特定时间区间内的发生次数,使用泊松分布
描述了事件在特定区间内的发生次数
在特定条件下可以用来近似代替二项分布

泊松分布

期望与方差

代替二项分布

正态分布的应用

  1. 对于离散概率分布来说,我们关心的是取得一个特定数值的概率;而对于连续概率分布来说,我们关心的是取得一个特定范围的概率

2.概率密度函数的总面积必须是1
3.正态分布函数

image.png

4.概率密度计算的方法:

  • 确定分布和范围(计算标准差和方差)
  • 使其标准化

标准化

  • 查找范围

超级正态

  1. 知道x和y 的概率分布,就能算出x+y的概率分布

x+y的概率分布

x+y的均值

x+y的方差

2.x属于正态分布,ax+b属于整天分布,则ax+b的概率分布

image.png

3.如果X1, X2, ....Xn为X的独立观测结果,且X符合正态分布,则:

独立观测的期望值

4.正态分布代替二项分布

image.png

如果用正态分布近似代替二项分布,则需要进行连续性修正,这样才能得到较为准确的结果。因为二项分布是离散型而正态分布是连续型

  • 计算p(x>=a)时,离散数字x是a-0.5
  • 计算p(x<=a)时。离散数字x是a+0.5

5.正态分布代替泊松分布

image.png

用正态分布近似代替泊松分布,要进行连续型修正
6.总结

image.png

抽取样本

1.样本

  • 无偏样本
  • 偏倚样本
  • 抽样空间中条目补全
  • 抽样单位不正确
  • 抽样单位未出现在实际样本中
  • 样本缺乏随机性

2.如何选择样本

  • 简单随机抽样
  • 分成抽样
  • 整群抽样
  • 系统抽样
  • 重复抽样
  • 不重复抽样

总体和样本的估计

1.均值

  • 总体均值:

     

    总体均值

  • 样本均值

样本均值

  • 点估计量:根据样本数据得出的对你所认为的总体均值的最佳猜测值

点估计量

2.总体方差:比样本方差偏大

总体方差

3.预测总体比例:比例算法用于解决二项分布问题

总体成功比例的点估计量

样本成功比例

4.抽样分布的概率

  • 例如:Z个球,红球的比例为40%, 现在取出100个球, 里面有40个红球的概率
  • 随机变量X代替样本中红球的个数,则样本中红球的比例为Ps = X/n,n为取出的球数
  • 每个样本中,红色球的数量符合B(n,p), 成功比例为Ps=X/n
  • 期望:

     

    期望

image.png

  • 方差:

image.png

image.png

  • 比例标准误差:

image.png

n越大,比例标准误差越小

image.png

  • 连续性修正

image.png

5.中心极限定理:如果从一个非正态总体X中取出一个样本,且样本很大,则抽取n个样品的分布也近似为正态分布

image.png

image.png

  • 中心极限定理的作用
    对于二项分布,总体均值为np,方差为npq, 如果带入抽样分布,则

     

    image.png

     

    对于泊松分布,均值和方差都为r,则得:

     

    image.png

置信区间的构建

1.求解置信区间步骤

  • 选择总体统计量
  • 求出其抽样分布
  • 决定置信水平
  • 求出置信上下限

2.置信区间计算的简单算法

image.png

3.置信区间简明算法——t分布
当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,着使它更适合小样本

image.png

《漫话统计学》
我们调查一件事,调查总体与样本

数据分为
不可测量的数据——分类数据(因人而异)

可测量的数据——数值数据 ( 有具体可衡量的数值)

组、组中值、次数、相对次数、次数分布表、直方图、变量、组距、组中值

算数平均数、arithmetic mean 几何平均数、 geometric mean 调和平均数harmonic mean

中位数median

标准差 :表示一组数据“平均离散程度”的指标 standard Deviation

描述统计学和推断统计学
第三章:掌握数据整体的状态

将问卷调查转变成次数分布表
第四章:标准计分和离差

离差;Deviation Score

标准差: Standard deviation

标准化: Standardization

标准计分:standard score (数据-平均数)/标注差
第五章:求机率

机率密度函数:Probability Density Function 简称:pdf
正态分布函数
以平均值为中心呈左右对称

受到平均值和标准差的影响

面积=比例=机率

标准正态分布表记录对应横轴的可读之机率的表

卡方分布
卡方分布表则记录对应机率之横轴刻度的表 x^2

t分布

f分布

excel 中的分布与对应的函数

双变量的相关分析

相关系数 :correlation coefficient

共变异数:covariance

变异数:variance

相关比:correlation Ratio
数值数据和分类数据是用“相关比” 其值 介于0和1之间

克莱姆相关系数 (独立系数)
分类数据和分类数据之间的相关程度,介于0和1之间
第八章:深入理解独立性检验 (卡方检验)

20170527154429.png

P值和“检验”的顺序

独立性检验和齐性检验

猜你喜欢

转载自blog.csdn.net/ljt1412451704/article/details/82811356