数据集
数据来源:
- 公开数据
- 企业数据
- 爬取数据
预分析
- 问题定义
- 可行性分析
- 模型预选择
特征工程
(特征工程决定了模型的上限,对模型优化只是逼近这个上限)
数据预处理:
- 缺失值处理
- 异常处理
- 数据归一化
- 探索性分析
- 相似性度量
特征选择:
- Fiter
- Wrapper
- Embedded
优化:
- 降维:PCA/LDA
- 特征融合
模型选择
有监督学习:
- 回归:线性回归、Logistic回归
- 分类:决策树、贝叶斯分类、SVM、KNN
无监督学习:
- 聚类:K-means、DBSCAN
强化学习:
- …
模型分类:
- 生成模型:根据特征得出属于某一类的概率
- 判别模型:根据特征直接判定属于哪一类
模型训练
- 训练集
- 验证集
验证方法:交叉验证
评估和优化
评估方法:
- 最小二乘法
- 交叉熵
问题及优化:
- 过拟合:正规化、减少特征、替换模型
- 欠拟合
模型应用
- 模型泛化
- 迁移学习