2019年上海市数学建模讲座笔记(2)概率统计模型

概率统计模型讲座笔记
在这里插入图片描述
概率统计模型占比例越来越大,大数据时代统计方面的问题反映在建模中
思考:数据的处理,算法时间复杂度注意

常用统计方法

多元统计分析工具,出镜率很高

【1】假设检验

分为:参数假设检验和非参数假设检验

【2】方差分析ANOVA

在这里插入图片描述
备注:这里原理记录的比较粗糙,请读者海涵,因为这些讲座本身是让学生从整体,从宏观上进行了解,进行把握。所以,以下笔记可能有点跳跃,缺少必要的知识点。
功能:很好反应统计的思想
单因素方差分析 one way ANOVA
问题导出:养鸡增重研究:做实验 ,区分饲料对鸡重量的影响

问题一般化:
现在有三种饲料,实际问题不止三种,饲料是因素 ,一般化为n种因素 。

下面两个假设
所有的ai等于0,有的饲料好,有的饲料差
为了数学处理的方便,需要
第二个假设:epslo服从正态分布,为了检验所需要

老师给的tips:模型需要后面来写,后面在有眉目的时候需要不断比较,给出假设,不是一上来就详细地在论文上写。

假设检验: H0:所有的ai等于零
在这里插入图片描述

特别:平方和分解
统计思想的角度,特别重要

所有的因素 Ai ,每一行 得到y1.的平均值,手机里面有照片

平方和分析:

两个求和 y平均养的鸡的平均重量和 miu不一样,miu是品种
ST 整齐划一 值很小,反应个体总差异
是什么造成的呢?
是饲料还是个体
现在着重饲料

从代数角度:加一项减一项

(a+b)^2拆分,交叉项等于零

yi.-y平均, 得到是不同种饲料和平均差异

前面是个体差异

记为 Se 个体差异 SA 因素造成的差异
这个方法是平方和分解
在这里插入图片描述

任务是侦测SA这个因素是不是显著,看SA和Se之间占比大小,只有SA比Se相差很大情况下,才有用

除以自由度,平均一下 ,F=MSA/MSe

F越大,越显著

假设:正态分布,F就是F分布
如果不是正态分布,不是F分布
统计思想有了,下面看竞赛真题

2012年高教社杯 竞赛A题 葡萄酒的评价

(粗略的讲解了一下)
品评葡萄酒质量。
问题:一批酒,两组品酒师,一组10个人,分别对酒打分,葡萄酒好坏也不知道。
第一个问题:两组评价有无差异,那一组更可靠
假设检验的问题
如果是正态分布,如果不是正态总体需要非参数检验

检验出来略有差异,
第二个问题:哪一组更可靠

答案不一样,怎么思考这道题呢?
大多数人考虑方差,波动小,同一个葡萄酒观点比较接近,就认为是好的队。其实不够

只考虑了一个方面

用方差分析的思想:评判员的一致性还要考虑葡萄酒的一致性

分开考虑 比较F比。F比大的,评委更靠谱一点

以上是关于赛题的一些讨论

【3】回归分析

掌握:回归分析

【4】判别分析

美赛出过题,或多或少有很多

人工智能和判别分析有关

蠓的分类 198几年竞赛题
可以分类
用数据图表述
AF 和APF两种类

横坐标:触角长度
纵坐标:翅膀长度

建立判别准则,判别不同种类的蠓
第二个问题,测量两个长度,判断是哪一个类型
第三个问题:如果Apf是益虫,Af是害虫,如何对判别做出修正。

判别分析已经完全解决了这类问题

直观上来讲 画一条线 来分类
判别分析介绍距离判别,贝叶斯判别,fisher判别

现在最流行的贝叶斯判别
(1)贝叶斯统计思想本质上害虫看成益虫 造成的损失和 益虫看成害虫造成的损失是不对等的。 整体上造成的损失最小。思路

(2)fisher观点:降维
直观画线,判别分析最大难度不是蠓的分类,因为只有两个指标,难度是指标不止两个,指标是n个,出现多维指标
空间都没有感觉,难度在这儿。
提出思路:降维 投影
讲一下思想:
降维有技巧,从二维入门,已经不需要降维了。从二维分析为讲问题方便
一个方法:坐标轴旋转,投影到轴上,也可以分的很开

类推,从三维降维到二维,找到一个方向,一个角度
思想:
第一个:两个指标:组间距,组内距 组间距尽量大,组内距尽量小。

很多组,平均值之间的距离越大越好
但是组很多,需要组平均值 组间距:平方和

这个也是方差分析的思想:刚才的F,组间距和组内距

【5】聚类分析

经常用

【6】主成分分析

老师提到:出题老师出题的时候会考虑,有思路:这道题学生应该怎么做
有的题目和主成分不相干还有人用这种方法来做。
第一:主成分有用,有的可以用,有的不能用。

建模的tips:
模型起作用,需要回答原始问题
写出几个模型,需要写出模型的优缺点,说明哪一个解决什么问题

主成分分析使用:
和fisher 大同小异:降维,减少指标的个数

举例美赛的例子
毒品,什么时候政府干预,有数据,得出毒品起源地在哪里。
大量的指标,精炼出来:指标精简
很多指标有内在联系,找到少数几个指标来刻画这个问题

指标反应的内容可能共享,构建主成分

研究涉及p个指标,p维随机向量
新的指标底系
均值miu
在这里插入图片描述

主成分基本原则和关系:(有四条)
1线性组合
2数目少
3主成分线性不相关
4主成分保留绝大多数信息
利用是spss软件

问题实例:
城市指标对城市综合实力进行评价,总共17个指标

主成分分析数据处理:标准化处理

和线性代数很有关
计算特征方程和特征根

回去好好看这部分内容。

统计的主成分到达80%就可以

线性组合之前需要去量纲,标准化过程

成分 component 乘上 标准化的比例

得到主成分需要解释第几个主成分是干嘛用的

存在有大小的问题,

第一个地区经济发展
第二主成分:文化发展
第三个:粗糙一点,农村发展

从这个例子看主成分的应用
得到的各种主成分:信息集中,每个主成分刻画的是哪一个方面的问题。

spss使用:有一个选项,主成分旋转,在spss里面有这个,解决的是主成分不明确的问题。

还需要回归的问题,判别分析等等
和其他搭配起来用。

总结一下:

这次讲座主要讲解了概率统计相关的模型和知识。
第一。统计方法现在在大数据时代是非常重要的。需要多花时间研究统计的理论。
第二。这次讲座的知识点:假设检验,方差分析ANOVA(统计思想很重要,老师特别强调这个),回归分析,判别分析(贝叶斯,fisher),聚类分析,主成分分析等等。其中老师着重讲解的是方差分析,判别分析,主成分分析( 但是,老师建议在数模比赛中少用主成分分析)。
第三。借着这次数模的比赛好好学习,系统一下相关的统计知识,比赛是途径,学习知识才是最主要的。但是另外一个老师讲竞赛的目的就是拿奖,就是证明我比你强。
第四。统计思想很重要
最后:以上是笔者2019年参加上海市建模培训的笔记与思考。没有详细地介绍各种方法,只是宏观上、整体上记录了一下概率统计相关的知识。希望各位读者能够按需求来阅读,当然如果是想学习具体的算法,这篇博客可能不适合您。当然,如果本篇博客涉嫌侵权,请联系删除。

发布了113 篇原创文章 · 获赞 69 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/shizheng_Li/article/details/100267176
今日推荐