只有想不想学,没有晚不晚之说
文章目录
参考资料
B站视频
一、选题
是兄弟就选C题拉
二、建模方法
主要掌握方法的优缺点,使用场景,
列出的都是基本方法,在真正建模的时候需要根据实际情况添加一些内容,可以查找一些文献
1.预测问题
微分方程:
灰色预测:
马尔科夫:
时间序列:
插值与拟合:
(简略)神经网络:
2.分类问题
(简略)支持向量机:
聚类分析:
主成分分析:
判别分析:
典型相关分析:
3.优化问题
线性规划:
非线性规划:
禁忌搜索:
模拟退火:
遗传算法:
(简略)人工神经网络:
4.评价与决策
理想解法:
模糊综合评判法:
数据包络分析法:
灰色关联分析法:
主成分分析法:
(简略)秩和比综合分析法:
三、数据查找
1、文献查找
知网
Web of Science
谷歌学术、百度学术
维基百科
2、数据库
kaggledatasets
国家数据库
和鲸数据库
阿里天池
github-publicdatasets
四、数据处理
1、数据清理
(1)缺失值
删除变量:缺失率较高、覆盖率低–删除
定值填充:一般9999(无穷大)
统计量填充:根据数据分布的情况填充(均匀分布用均值;倾斜分布用中位数)
插值填充:随即插值、多重插补法、热平台插补、拉格朗日插值法、牛顿插值法
(简略)模型填充:回归、贝叶斯、随机森林、决策树
(2)离群点
检查是否有离群点:简单统计分析(箱线图、各分位点判断)、基于绝对值离差中位数、基于距离、基于密度、基于聚类
具体处理:删除、对数变换消除异常、平均数/中位数代替、模型对离群点数据的鲁棒性较高,可以不做处理(树模型)
Matlab中的异常值处理:link
(3)噪声处理
平滑数据:分箱-用箱统计量代替箱中的数
建立变量和预变量的回归模型,根据回归系数和预测变量,反解自变量的近似值
2、数据集成
实体识别:(数据库)确定数据库中的customer_id和数据B中的club_id指的是同一个实体
冗余问题(排序–合并):通过邻近记录是否相似来检测记录的重复,用相关性检测:数值型变量计算相关系数矩阵;标称型变量计算卡方检验
冲突处理:不同数据集,在合并统一时保持规范化、去重
3、数据规约
4、数据变换
(1)规范化处理
最大-最小规范化
z-score标准化
log变化
(2)离散化处理
条件:模型需要将连续的数据进行分段、分成离散的区间;离散化后的特征更易理解;离散后可以克服数据中隐藏的缺陷
方法:等频法;等宽法;聚类法
(3)稀疏化处理
0,1哑变量
同一归为一类