[持续更新]美赛建模笔记(总体篇)

只有想不想学,没有晚不晚之说



参考资料

B站视频


一、选题

是兄弟就选C题拉

二、建模方法

主要掌握方法的优缺点,使用场景,
列出的都是基本方法,在真正建模的时候需要根据实际情况添加一些内容,可以查找一些文献

1.预测问题

微分方程:
灰色预测:
马尔科夫:
时间序列:
插值与拟合:
(简略)神经网络:

2.分类问题

(简略)支持向量机:
聚类分析:
主成分分析:
判别分析:
典型相关分析:

3.优化问题

线性规划:
非线性规划:
禁忌搜索:
模拟退火:
遗传算法:
(简略)人工神经网络:

4.评价与决策

理想解法:
模糊综合评判法:
数据包络分析法:
灰色关联分析法:
主成分分析法:
(简略)秩和比综合分析法:


三、数据查找

1、文献查找

知网
Web of Science
谷歌学术、百度学术
维基百科

2、数据库

kaggledatasets
国家数据库
和鲸数据库
阿里天池
github-publicdatasets

四、数据处理

1、数据清理

(1)缺失值

删除变量:缺失率较高、覆盖率低–删除
定值填充:一般9999(无穷大)
统计量填充:根据数据分布的情况填充(均匀分布用均值;倾斜分布用中位数)
插值填充:随即插值、多重插补法、热平台插补、拉格朗日插值法、牛顿插值法
(简略)模型填充:回归、贝叶斯、随机森林、决策树

(2)离群点

检查是否有离群点:简单统计分析(箱线图、各分位点判断)、基于绝对值离差中位数、基于距离、基于密度、基于聚类
具体处理:删除、对数变换消除异常、平均数/中位数代替、模型对离群点数据的鲁棒性较高,可以不做处理(树模型)

Matlab中的异常值处理:link

(3)噪声处理

平滑数据:分箱-用箱统计量代替箱中的数
建立变量和预变量的回归模型,根据回归系数和预测变量,反解自变量的近似值

2、数据集成

实体识别:(数据库)确定数据库中的customer_id和数据B中的club_id指的是同一个实体
冗余问题(排序–合并):通过邻近记录是否相似来检测记录的重复,用相关性检测:数值型变量计算相关系数矩阵;标称型变量计算卡方检验
冲突处理:不同数据集,在合并统一时保持规范化、去重

3、数据规约

4、数据变换

(1)规范化处理

最大-最小规范化
z-score标准化
log变化

(2)离散化处理

条件:模型需要将连续的数据进行分段、分成离散的区间;离散化后的特征更易理解;离散后可以克服数据中隐藏的缺陷
方法:等频法;等宽法;聚类法

(3)稀疏化处理

0,1哑变量
同一归为一类

猜你喜欢

转载自blog.csdn.net/weixin_45660543/article/details/113112111