统计学基础(四)

1,线性回归:

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。 [1]

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。线性回归中最常见的就是房价的问题。一直存在很多房屋面积和房价的数据,如下图所示:

在这里插入图片描述

2,代价函数:

通过线性回归算法,我们可能会得到很多的线性回归模型,但是不同的模型对于数据的拟合或者是描述能力是不一样的。我们的目的最终是需要找到一个能够最精确地描述数据之间关系的线性回归模型。这是就需要用到代价函数。代价函数就是用来描述线性回归模型与正式数据之前的差异。如果完全没有差异,则说明此线性回归模型完全描述数据之前的关系。如果需要找到最佳拟合的线性回归模型,就需要使得对应的代价函数最小,相关的公式描述如下:

在这里插入图片描述

3,线性回归的特点:

建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。 可以根据系数给出每个变量的理解和解释。
对异常值很敏感。

4,卡方分布与方差分析

1)、卡方检验

1.1 卡方检验的基本思想

以卡方分布为基础,计算观察值和期望值之间的偏离程度;

1.2 卡方检验的使用前提

最小期望频数均大于1

至少4/5的单元格期望频数大于5

计算时如果单元格期望频数小于5要和其他种类合并

样本观察值量超过50

1.3 卡方检验的使用目的

考察无序分类变量各水平在两组或多组间的分布是否一致;

检验某个连续变量的分布是否和理论分布一致;

分类变量的概率是否等于指定概率;

检验两个分类变量是否独立;

检验控制了其中几个因素后,剩余的两个分类变量是否独立;

检验两种方法的结果是否一致;

1.4 卡方检验的适用场景

单样本卡方检验

操作: 打开 分析–非参数检验–单样本

两样本卡方检验

操作: 打开 分析–描述统计–交叉表

两分类变量间关联程度的度量:定性描述两个分类变量是否存在关联(更为详细的可以根据相关分析)

操作: 打开 分析–描述统计–交叉表

Kappa一致性检验(用于配对样本,如两个人针对一个事物的评价)

用于配对样本的检验,Kappa检验的结果是两个人的评价是否是相关的

操作: 打开 分析–描述统计–交叉表

Mcnemar 配对卡方检验

Kappa检验只能看出两者是否有关联,但是不能判断是否一致,Mcnemar
配对卡方检验就可以解决两者是否一致的问题

操作: 打开 分析–描述统计–交叉表

分层卡方检验

可以控制一个因素,如收入对车辆购买率的影响,可以将城市作为分层因素,从而可以得到更准确的结果,但是SPSS中只能进行两分类变量的检验,不能进行多分类的检验,且分层因素和要分析的因素之间如果存在交互关系也不能进行检验。

操作: 打开 分析–描述统计–交叉表

2),单因素方差分析

2.1 单因素方差分析的基本思想

基本思想:变异分解,总变异=随机变异+处理因素导致的变异,又可以分解为总变异=组内变异+组间变异,F=组间变异/组内变异,F的值越大,处理因素的影响越大。

2.2 单因素方差分析的使用前提

独立性:不满足独立性会有很大的影响,因为信息存在“重叠”的部分

疑问:在哪儿可以验证?卡方检验?卡方检验检验的是两个分类变量

正态性:对正态性的要求是稳健的

方差齐性:检验方法除了Levene’s检验,还可以有其他的检验方法:Bartleet法(比较各组方差的加权算数平均数和几何均数)、Hartley法(样本量相同时使用)、Cochran法(样本量相同时使用)。

方差分析对变量的类型有要求吗?应该分析的都是连续变量

2.3 单因素方法分析的使用前提不满足时变换方法

对数变换、平方根变换、平方根反正弦变换、平方变换、倒数变换、Box-Cox变换(分段函数)

2.4 单因素方差分析的适用场景

T检验只能检验两组样本的均数差,多组样本的时候就需采用方差分析;

操作:打开分析—比较均值—均值 进行预分析,可以大致看出各均值是否相同,方差是否齐性;再进行
打开 分析—比较均值—单因素anova;

适用场景:均数间的多重比较(全部两两比较)、各组均数的精细比较(可以指定要比较的两个组,通过设定系数)、组间均数的趋势检验(为了利用分组变量中体现出的次序信息,目的不是为了拟合线性或非线性的模型,而是希望知道因素的水平改变时均数的变化趋势)

2.5 方差分析结束后如均值不同可进行两两比较(事前比较、事后比较)

LSD法:用于事先计划好的比较,最灵敏;检验水准没有校正,每次都是α

Sidak法:第二灵敏;

Bonferroni法:用于事先计划好的比较,第三灵敏;

Scheffe法:多用样本含量不等的情况,第四灵敏;

Dunnett法:常用于多个实验组和一个对照组的比较,第五灵敏;

寻找同质亚组的检验方法:

S-N-K法:将所有样本分为多个子集;

Tukey法:任意两组比较,要求样本含量相同,MEER不超过α;

Duncan法:与SNK法类似;

备注:

CER:每进行一次比较犯一类错误错误的概率;

EERC:完全无效假设检验下,做完全部比较犯一类错误的概率;

MEER:部分或者任何完全假设下,犯一类错误的最大概率值,即最大实验误差率。

猜你喜欢

转载自blog.csdn.net/qq_41698853/article/details/89174157