机器学习(建模过程)简概

数据集

数据来源:

  • 公开数据
  • 企业数据
  • 爬取数据

预分析

  • 问题定义
  • 可行性分析
  • 模型预选择

特征工程

(特征工程决定了模型的上限,对模型优化只是逼近这个上限)

数据预处理:

  • 缺失值处理
  • 异常处理
  • 数据归一化
  • 探索性分析
  • 相似性度量

特征选择:

  • Fiter
  • Wrapper
  • Embedded

优化:

  • 降维:PCA/LDA
  • 特征融合

模型选择

有监督学习:

  • 回归:线性回归、Logistic回归
  • 分类:决策树、贝叶斯分类、SVM、KNN

无监督学习:

  • 聚类:K-means、DBSCAN

强化学习:

模型分类:

  • 生成模型:根据特征得出属于某一类的概率
  • 判别模型:根据特征直接判定属于哪一类

模型训练

  • 训练集
  • 验证集

验证方法:交叉验证

评估和优化

评估方法:

  • 最小二乘法
  • 交叉熵

问题及优化:

  • 过拟合:正规化、减少特征、替换模型
  • 欠拟合

模型应用

  • 模型泛化
  • 迁移学习

猜你喜欢

转载自blog.csdn.net/qq_37509235/article/details/81180441