[数据分析学习笔记] 数据分析必备的概率论和统计学知识

数据分析必备的概率论和统计学知识

概率论基础

1. 随机事件与概率

随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本空间,记作Ω.即Ω={ω1,ω2,…,ωn,…}。仅含一个样本点的随机事件称为基本事件,含有多个样本点的随机事件称为复合事件。

随机事件的特点

(1)可以在相同的条件下重复进行;

(2)每个试验的可能结果不止一个,并且能事先预测试验的所有可能结果;

(3)进行一次试验之前不能确定哪一个结果会出现。

随机事件的关系

  • 事件A是事件B的子事件,事件A发生必然导致事件B发生,事件A的样本点都是事件B的样本点,记作A⊂B。
  • 若A⊂B且B⊂A,那么A=B,称A和B为相等事件,事件A与事件B含有相同的样本点。
  • 和事件发生,即事件A发生或事件B发生,事件A与事件B至少一个发生,由事件A与事件B所有样本点组成,记作A∪B。
  • 积事件发生,即事件A和事件B同时发生,由事件A与事件B的公共样本点组成,记作AB或A∩B。

随机变量及其分布

  • 随机变量的概率分布

       随机变量的分布函数

       离散型随机变量及其分布率

       连续型随机变量及其分布率

  • 随机变量的函数及概率密度函数

随机变量的数字特征

包括:一维随机变量和多维随机变量

  •  数学期望

        离散型随机变量的数学期望

        连续型随机变量的数学期望

        二维随机变量函数的数学期望

        数学期望的性质

  •  方差

        方差的概念、性质

  •  标准差
  •  切比雪夫不等式
  •  协方差与相关系数

几类重要的概率分布

  •  (0-1) 分布
  • 二项分布
  • 几何分布
  • 泊松分布
  • 正态分布
  • 其他重要的概率分布(指数分布、均匀分布等)
  •  二维正态分布及二维均匀分布

参数估计 

参数估计(Parameter Estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等作出合理的推断。它是统计推断的一种基本形式,分为点估计和区间估计两部分。

参数估计是在样本统计量概率分布的基础上,利用样本的信息推断所关心的总体参数的过程。
(1)基于样本统计量的概率分布:如前所述,样本统计量是一个随机变量,有其自身的概率分布、期望、方差等。在分析一个样本集时,需要基于此统计学知识;
(2)利用样本的信息:样本是我们唯一有的数据,一切的统计基于样本数据;
(3)推断所关心的总体参数是目的。比如,利用样本的均值推断总体的均值,利用样本的方差推断总体的方差。

PS1:利用样本的均值作为总体均值的估计,是直观且不需要解释的。样本统计量(此处指均值)的概率分布,是为这个估计提供置信度等信息的。
PS2:利用样本均值去估计总体均值时,总体均值是一个待被估计的总体参数,可以用表示。样本均值叫做估计量,用表示,是一个统计量;实际采集了一个样本算出了其平均值,这叫一个估计值。

参数估计的基本原理

参数估计的方法

  • 点估计

点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。简单的来说,指直接以样本指标来估计总体指标,也叫定值估计。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。构造点估计常用的方法是:

① 矩估计法,用样本矩估计总体矩

② 最大似然估计法。利用样本分布密度构造似然函数来求出参数的最大似然估计。

③ 最小二乘法。主要用于线性统计模型中的参数估计问题。

④ 贝叶斯估计法。

  • 区间估计

区间估计是在点估计的基础上,给出总体参数估计的一个估计区间,并给出相应的置信度。区间估计要基于样本统计量的分布规律上,区间通常是样本统计量加减估计误差。


假设检验

假设检验的基本问题

一个总体参数的检验

两个总体参数的检验

单侧检验中假设的建立

置信区间与假设检验的关系


方差分析

方差分析基本原理

单因素方差分析

双因素方差分析

利用Excel或者Python等其他工具做方差分析 


一元线性回归

 变量间关系的度量

一元线性回归

利用回归方程进行预测

残差分析


多元线性回归

基本原理

多重共线性

变量选择与逐步回归

带有虚拟变量的回归分析


时间序列

时间序列基本概念

时间序列预测的程序

复合型序列的分解预测


聚类分析

分类

相似性度量

聚类分析的分类

聚类分析方法分类


主成分分析

基本原理

核心问题

理论基础

利用系统和工具进行主成分分析


因子分析

因子分析的基本理论及模型

因子分析的步骤

利用系统和工具进行因子分析

主成分分析与因子分析的异同

发布了619 篇原创文章 · 获赞 185 · 访问量 66万+

猜你喜欢

转载自blog.csdn.net/seagal890/article/details/104868282