只有想不想学，没有晚不晚之说

参考资料

B站视频

一、选题

是兄弟就选C题拉

二、建模方法

主要掌握方法的优缺点，使用场景，
列出的都是基本方法，在真正建模的时候需要根据实际情况添加一些内容，可以查找一些文献

1.预测问题

微分方程：
灰色预测：
马尔科夫：
时间序列：
插值与拟合：
（简略）神经网络：

2.分类问题

（简略）支持向量机：
聚类分析：
主成分分析：
判别分析：
典型相关分析：

3.优化问题

线性规划：
非线性规划：
禁忌搜索：
模拟退火：
遗传算法：
（简略）人工神经网络：

4.评价与决策

理想解法：
模糊综合评判法：
数据包络分析法：
灰色关联分析法：
主成分分析法：
（简略）秩和比综合分析法：

三、数据查找

1、文献查找

知网
Web of Science
谷歌学术、百度学术
维基百科

2、数据库

kaggledatasets
国家数据库
 和鲸数据库
 阿里天池
 github-publicdatasets

四、数据处理

1、数据清理

(1)缺失值

删除变量：缺失率较高、覆盖率低–删除
定值填充：一般9999（无穷大）
统计量填充：根据数据分布的情况填充（均匀分布用均值；倾斜分布用中位数）
插值填充：随即插值、多重插补法、热平台插补、拉格朗日插值法、牛顿插值法
（简略）模型填充：回归、贝叶斯、随机森林、决策树

(2)离群点

检查是否有离群点：简单统计分析（箱线图、各分位点判断）、基于绝对值离差中位数、基于距离、基于密度、基于聚类
具体处理：删除、对数变换消除异常、平均数/中位数代替、模型对离群点数据的鲁棒性较高，可以不做处理（树模型）

Matlab中的异常值处理：link

（3）噪声处理

平滑数据：分箱-用箱统计量代替箱中的数
建立变量和预变量的回归模型，根据回归系数和预测变量，反解自变量的近似值

2、数据集成

实体识别：（数据库）确定数据库中的customer_id和数据B中的club_id指的是同一个实体
冗余问题（排序–合并）：通过邻近记录是否相似来检测记录的重复，用相关性检测：数值型变量计算相关系数矩阵；标称型变量计算卡方检验
冲突处理：不同数据集，在合并统一时保持规范化、去重

3、数据规约

4、数据变换

(1)规范化处理

最大-最小规范化
z-score标准化
log变化

(2)离散化处理

条件：模型需要将连续的数据进行分段、分成离散的区间；离散化后的特征更易理解；离散后可以克服数据中隐藏的缺陷
方法：等频法；等宽法；聚类法

(3)稀疏化处理

0，1哑变量
同一归为一类

[持续更新]美赛建模笔记（总体篇）

文章目录