Matlab:“没有这三步,统计建模会醒肤嘛?”

数学建模期末复习,撰写博客做总结之用,主要侧重于算例的模型建立与部分代码的实现,其中不足之处望读者多多指正。

前戏(来电数理统计基础知识)

统计量

1、表示位置的统计量

  • 平均值: X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}{ { {X}_{i}}} Xˉ=n1i=1nXi
  • 中位数:将数据由小到大排序后位于中间位置的那个数值.

2、 表示变异程度的统计量:

  • 标椎差: s = [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] 1 2 s = {[\frac{1}{ {n - 1}}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^2}} ]^{\frac{1}{2}}} s=[n11i=1n(XiXˉ)2]21
  • 方差:标椎差的平方
  • 极差:样本的两最值的差。

3、表示分布形状的统计量

  • 偏度: g 1 = 1 s 3 ∑ i = 1 n ( X i − X ˉ ) 3 {g_1} = \frac{1}{ { {s^3}}}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^3}} g1=s31i=1n(XiXˉ)3
  • 峰度: g 2 = 1 s 4 ∑ i = 1 n ( X i − X ˉ ) 4 {g_2} = \frac{1}{ { {s^4}}}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^4}} g2=s41i=1n(XiXˉ)4
    说明:
  • 偏度反映分布的对称性,g1 >0称为右偏态,此时数据位于均值右边的比位于左边的多;g1 <0称为左偏态,情况相反;而g1接近0则可认为分布是对称的.
  • 峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3大很多,表示分布比较“扁平”,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.

4、矩

  • k阶原点矩: V k = 1 n ∑ i = 1 n X i k {V_k} = \frac{1}{n}\sum\limits_{i = 1}^n {X_i^k} Vk=n1i=1nXik
  • k阶中心矩: U k = 1 n ∑ i = 1 n ( X i − X ˉ ) k {U_k} = \frac{1}{n}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^k}} Uk=n1i=1n(XiXˉ)k

求概率分布函数方法论

1、整理资料:把样本值x1,x2,…,xn进行分组,先将它们依大小次序排列,得 x 1 ∗ ≤ x 2 ∗ ≤ ⋯ ≤ x n ∗ x_1^* \le x_2^* \le \cdots \le x_n^* x1x2xn,随机落入等分点;
2、求出出现在区间的频率: ( x i , x i + 1 ] (x_i,x_{i + 1}] (xi,xi+1] n i n_i ni则频率 f i = n i n f_i=\frac{n_i}{n} fi=nni

3、做相应的频率直方图。

统计中常用的概率分布

1、正态分布: N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2)
密度函数: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 : p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}: p(x)=2π σ1e2σ2(xμ)2:
分布函数: F ( x ) = 1 2 π σ ∫ − ∞ x e − ( y − μ ) 2 2 σ 2 d y F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(y-\mu)^{2}}{2 \sigma^{2}}} d y F(x)=2π σ1xe2σ2(yμ)2dy
μ , 为 期 望 σ 2 为 均 值 , − ∞ < x < + ∞ \mu,为期望\sigma^{2}为均值, \quad-\infty<x<+\infty μ,σ2,<x<+

  • 标椎正态分布: N ( 0 , 1 ) N(0,1) N(0,1)
    密度函数: φ ( x ) = 1 2 π e − x 2 2 \varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}} φ(x)=2π 1e2x2
    分布函数: Φ ( x ) = 1 2 π ∫ − ∞ x e − y 2 2 d y \Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{y^{2}}{2}} \mathrm{d} y Φ(x)=2π 1xe2y2dy

2、 χ 2 {\chi ^2} χ2分布
若随机变量X1,X2,…,Xn相互独立,都服从标准正态分布N(0,1),则随机变量:
Y = X 1 2 + X 2 2 + ⋯ + X n 2 Y=X_1^2 + X_2^2 + \cdots + X_n^2 Y=X12+X22++Xn2服从自由度为n的 χ 2 {\chi ^2} χ2分布,记做Y~ χ 2 {\chi ^2} χ2(n)

3、t分布
若XN(1,0)与Y χ 2 {\chi ^2} χ2(n)相互独立,则随机变量: T = X Y n T = \frac{X}{ {\sqrt {\frac{Y}{n}} }} T=nY X服从自由度为n的t分布记做T~t(n)

4、F分布
如果X~ χ 2 {\chi ^2} χ2 n 1 n_1 n1),Y~ χ 2 {\chi ^2} χ2 n 2 n_2 n2),且两者相互独立,则 F = X n 1 Y n 2 F = \frac{ {\frac{X}{ { {n_1}}}}}{ {\frac{Y}{ { {n_2}}}}} F=n2Yn1X服从自由度为( n 1 , n 2 n_1,n_2 n1n2)的F分布,记作F~F( n 1 , n 2 n_1,n_2 n1n2

接下的概念对菜鸡笔者有些复杂,偷懒不做展开,有兴趣的读者自行补充

参数估计

  • 点估计
  • 区间估计
    1、点估计的求法
  • 矩估计法
  • 极大似然估计法

2、区间估计的求法

  • 求数学期望的置信区间
  • 方差的区间估计

假设检验

假设检验的一般解题步骤为:

  1. 根据实际问题提出原假设H0与备择假设H1,即说明需要检验的假设的具体内容;
  2. 选择适当的统计量,并在原假设H0成立的条件下确定该统计量的分布;
  3. 按问题的具体要求,选取适当的显著性水平 ,并根据统计量的分布查表,确定对应于 的临界值.一般 取0.05,0.01或0.10;
  4. 根据样本观测值计算统计量的观测值,并与临界值进行比较,从而在检验水平 下对拒绝或接受原假设H0作出判断.

高潮(matlab统计工具箱使用)

入(数据导入)

有两种,导入向量将向量合成矩阵,或者直接导入矩阵数据:

t=78:87;
x=[23.8,27.6,31.6,32.4,33.7,34.9,...
    43.2,52.8,63.8,73.4];
y=[41.4,51.8,61.7,67.9,68.7,77.5,...
    95.9,137.4,155.0,175.0];
save data t x y;
load data;

%矩阵输入
clear
data1=[78,79,80,81,82,83,84,85,86,87;...
    23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;...
    41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
t=data1(1,:)
x=data1(2,:)
y=data1(3,:)

势(常用统计量)

%输出基本的统计量
%均值
mean(x)
%中位数
median(x)
%标椎差
std(x)
%方差
var(x)
%偏度
skewness(x)
%峰度
kurtosis(x

践(常用的概率分布函数)

%常见的概率分布函数
%正态分布:norm
%指数分布:exp 
%均匀分布:unif          
%泊松分布:poiss
%两项分布: bino
%几何分布:geo
%超几何分布:hyge
%离散均匀分布:unid
%β 分布:beta            
%γ分布:gam
%韦布尔分布:weib
%卡方分布:chi2    
%t分布:t
%F分布:F

%分部的相关概率函数
%概率密度:pdf       概率分布:cdf
%逆概率分布:inv     均值与方差:stat
%随机数生成:rnd

%关于正态分布的概率密度函数可以表示为
p=normpdf(x,mu,sigma)

尽(常用的参数估计与假设检验)

  • 参数估计(以正态为例)
%检验
[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)
%参数估计
%假设检验,已知方差Z检验均值
[h,sig,ci] = ztest(x,m,sigma,alpha,tail)
%假设检验,未知方差t检验均值
[h,sig,ci] = ttest(x,m,sigma,alpha,tail)
%两总体问题假设检验使用t检验
[h,sig,ci] = ttest2(x,y,alpha,tail)
  • 非参数检验
    以正态分布为例

%非参数检验
%绘制频率直方图
hist(x,10)

%检验正态分布
h = normplot(x)
%检验Weibull分布
h = weibplot(x)
%参数估计(点估计与区间估计)
[muhat,sigmahat,muci,sigmaci]=normfit(x)

tail的缺省值为 0, alpha的缺省值为 0.05

后语(引例)

净(例子1)

某校60名学生的一次考试成绩如下:
93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55
1)计算均值、标准差、极差、偏度、峰度,画出直方图;
2)检验分布的正态性;
3)若检验符合正态分布,估计正态分布的参数并检验参数.

  • 程序求解
%作业题1
x=[93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 ...
    88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 ...
    75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 ...
    76 90 89 71 66 86 73 80 94 79 78 77 63 53 55
];
%计算基本的统计量
%均值
mean(x)
%中位数
median(x)
%标椎差
std(x)
%方差
var(x)
%偏度
skewness(x)
%峰度
kurtosis(x)
%绘制基本的直方图
hist(x,10)
%检验正态性
normplot(x)
%参数估计
[muhat,sigmahat,muci,sigmaci]=normfit(x)
  • 运行图例
    直方图
    在这里插入图片描述
    正态性检验:
    在这里插入图片描述
    参数估计:

muhat =80.1000
sigmahat =9.7106
muci =[77.5915,82.6085]
sigmaci =[8.2310,11.8436]
即:方差为9.7106,期望为80.1000 估计置信区间同上

伏(例2)

据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年1月和2月的数据如下:
1月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118
2月:118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125

1)分别用两个月的数据验证这种说法的可靠性;
2)分别给出1月和2月汽油价格的置信区间;
3)给出1月和2月汽油价格差的置信区间.
*解题代码

%作业题2
x=[119 117 115 116 112 121 115 122 116 118 ...
    109 112 119 112 117 113 114 109 109 118
];
y=[118 119 115 122 118 121 120 122 128 116 ...
    120 123 121 119 117 119 128 126 118 125];
[h,sig,ci] = ttest(x,115)

[h,sig,ci] = ttest(y ,115)

[h,sig,ci] = ttest2(x,y)

  • 运行结果

h = 0
sig =0.8642
ci =113.3388 116.9612
h =1
sig =1.3241e-06
ci =119.0129 122.4871
h =1
sig =3.6952e-05
ci =-8.0273 -3.1727
说法在1月可靠2月不可靠,1月的价格区间为[113.3388 116.9612];二月价格区间为[119.0129 122.4871];价格差为(1-2)-8.0273 -3.1727

参考

  • 数模课件
  • 晋江文学

猜你喜欢

转载自blog.csdn.net/Zengmeng1998/article/details/107123114