2019年上海市数学建模讲座笔记（2）概率统计模型

概率统计模型讲座笔记
在这里插入图片描述
概率统计模型占比例越来越大，大数据时代统计方面的问题反映在建模中
思考：数据的处理，算法时间复杂度注意

常用统计方法

多元统计分析工具，出镜率很高

【1】假设检验

分为：参数假设检验和非参数假设检验

【2】方差分析ANOVA

在这里插入图片描述
备注：这里原理记录的比较粗糙，请读者海涵，因为这些讲座本身是让学生从整体，从宏观上进行了解，进行把握。所以，以下笔记可能有点跳跃，缺少必要的知识点。
功能：很好反应统计的思想
单因素方差分析 one way ANOVA
问题导出：养鸡增重研究:做实验，区分饲料对鸡重量的影响

问题一般化：
现在有三种饲料，实际问题不止三种，饲料是因素，一般化为n种因素。

下面两个假设
所有的ai等于0，有的饲料好，有的饲料差
为了数学处理的方便，需要
第二个假设：epslo服从正态分布，为了检验所需要

老师给的tips：模型需要后面来写，后面在有眉目的时候需要不断比较，给出假设，不是一上来就详细地在论文上写。

假设检验： H0：所有的ai等于零
在这里插入图片描述

特别：平方和分解
统计思想的角度，特别重要

所有的因素 Ai ，每一行得到y1.的平均值，手机里面有照片

平方和分析：

两个求和 y平均养的鸡的平均重量和 miu不一样，miu是品种
ST 整齐划一值很小，反应个体总差异
是什么造成的呢？
是饲料还是个体
现在着重饲料

从代数角度：加一项减一项

（a+b）^2拆分，交叉项等于零

yi.-y平均，得到是不同种饲料和平均差异

前面是个体差异

记为 Se 个体差异 SA 因素造成的差异
这个方法是平方和分解
在这里插入图片描述

任务是侦测SA这个因素是不是显著，看SA和Se之间占比大小，只有SA比Se相差很大情况下，才有用

除以自由度，平均一下，F=MSA/MSe

F越大，越显著

假设：正态分布，F就是F分布
如果不是正态分布，不是F分布
统计思想有了，下面看竞赛真题

2012年高教社杯竞赛A题葡萄酒的评价

（粗略的讲解了一下）
品评葡萄酒质量。
问题：一批酒，两组品酒师，一组10个人，分别对酒打分，葡萄酒好坏也不知道。
第一个问题：两组评价有无差异，那一组更可靠
假设检验的问题
如果是正态分布，如果不是正态总体需要非参数检验

检验出来略有差异，
第二个问题：哪一组更可靠

答案不一样，怎么思考这道题呢？
大多数人考虑方差，波动小，同一个葡萄酒观点比较接近，就认为是好的队。其实不够

只考虑了一个方面

用方差分析的思想：评判员的一致性还要考虑葡萄酒的一致性

分开考虑比较F比。F比大的，评委更靠谱一点

以上是关于赛题的一些讨论

【3】回归分析

掌握：回归分析

【4】判别分析

美赛出过题，或多或少有很多

人工智能和判别分析有关

蠓的分类 198几年竞赛题
可以分类
用数据图表述
AF 和APF两种类

横坐标：触角长度
纵坐标：翅膀长度

建立判别准则，判别不同种类的蠓
第二个问题，测量两个长度，判断是哪一个类型
第三个问题：如果Apf是益虫，Af是害虫，如何对判别做出修正。

判别分析已经完全解决了这类问题

直观上来讲画一条线来分类
判别分析介绍距离判别，贝叶斯判别，fisher判别

现在最流行的贝叶斯判别
（1）贝叶斯统计思想：本质上害虫看成益虫造成的损失和益虫看成害虫造成的损失是不对等的。整体上造成的损失最小。思路

（2）fisher观点：降维
直观画线，判别分析最大难度不是蠓的分类，因为只有两个指标，难度是指标不止两个，指标是n个，出现多维指标
空间都没有感觉，难度在这儿。
提出思路：降维投影
讲一下思想：
降维有技巧，从二维入门，已经不需要降维了。从二维分析为讲问题方便
一个方法：坐标轴旋转，投影到轴上，也可以分的很开

类推，从三维降维到二维，找到一个方向，一个角度
思想：
第一个：两个指标：组间距，组内距组间距尽量大，组内距尽量小。

很多组，平均值之间的距离越大越好
但是组很多，需要组平均值组间距：平方和

这个也是方差分析的思想：刚才的F，组间距和组内距

【5】聚类分析

经常用

【6】主成分分析

老师提到：出题老师出题的时候会考虑，有思路：这道题学生应该怎么做
有的题目和主成分不相干还有人用这种方法来做。
第一：主成分有用，有的可以用，有的不能用。

建模的tips：
模型起作用，需要回答原始问题
写出几个模型，需要写出模型的优缺点，说明哪一个解决什么问题

主成分分析使用：
和fisher 大同小异：降维，减少指标的个数
举例美赛的例子
毒品，什么时候政府干预，有数据，得出毒品起源地在哪里。
大量的指标，精炼出来：指标精简
很多指标有内在联系，找到少数几个指标来刻画这个问题

指标反应的内容可能共享，构建主成分

研究涉及p个指标，p维随机向量
新的指标底系
均值miu
在这里插入图片描述

主成分基本原则和关系：（有四条）
1线性组合
2数目少
3主成分线性不相关
4主成分保留绝大多数信息
利用是spss软件

问题实例：
城市指标对城市综合实力进行评价，总共17个指标

主成分分析数据处理：标准化处理

和线性代数很有关
计算特征方程和特征根

回去好好看这部分内容。

统计的主成分到达80%就可以

线性组合之前需要去量纲，标准化过程

成分 component 乘上标准化的比例

得到主成分需要解释第几个主成分是干嘛用的

存在有大小的问题，

第一个地区经济发展
第二主成分：文化发展
第三个：粗糙一点，农村发展

从这个例子看主成分的应用
得到的各种主成分：信息集中，每个主成分刻画的是哪一个方面的问题。

spss使用：有一个选项，主成分旋转，在spss里面有这个，解决的是主成分不明确的问题。

还需要回归的问题，判别分析等等
和其他搭配起来用。

总结一下：

这次讲座主要讲解了概率统计相关的模型和知识。
第一。统计方法现在在大数据时代是非常重要的。需要多花时间研究统计的理论。
第二。这次讲座的知识点：假设检验，方差分析ANOVA（统计思想很重要，老师特别强调这个），回归分析，判别分析（贝叶斯，fisher），聚类分析，主成分分析等等。其中老师着重讲解的是方差分析，判别分析，主成分分析（但是，老师建议在数模比赛中少用主成分分析）。
第三。借着这次数模的比赛好好学习，系统一下相关的统计知识，比赛是途径，学习知识才是最主要的。但是另外一个老师讲竞赛的目的就是拿奖，就是证明我比你强。
第四。统计思想很重要。
最后：以上是笔者2019年参加上海市建模培训的笔记与思考。没有详细地介绍各种方法，只是宏观上、整体上记录了一下概率统计相关的知识。希望各位读者能够按需求来阅读，当然如果是想学习具体的算法，这篇博客可能不适合您。当然，如果本篇博客涉嫌侵权，请联系删除。

shizheng_Li

发布了113 篇原创文章 · 获赞 69 · 访问量 4万+

私信关注