机器学习开发流程

  • 数据来源
  1. 公司本身就有数据
  2. 合作过来的数据
  3. 购买的数据
  • 开发过程
  1. 明确做什么问题–建立模型[根据数据类型]
  2. 数据的基本处理: pd去处理数据(缺失值,合并)
  3. 特征工程(对特征进行处理)【非常重要】
  4. 寻找合适的算法进行预测 模型:算法 + 数据
  5. 模型的评估,判定效果
  6. 上线使用, 以API形式提供
  • 判断数据类型
  1. 离散型:在区间内不可再分,通常为整数。例如:人的数量
  2. 连续型:在区间可分,可以无限划分,通常为非整数,含有小数部分。例如:长度、时间、质量
  • 根据数据类型选择合适的算法
    比如一般来说目标值为离散型数据通常会作为分类算法的数据[猫狗的图像分类]
    目标值连续型数据通常会作为回归型算法的数据[股票预测]
  • 机器学习算法分类
  1. 监督学习(预测):有特征值和目标值
    1> 分类 K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
    2> 回归 隐马尔可夫模型
  2. 无监督学习:只有目标值
    聚类 k-means
发布了14 篇原创文章 · 获赞 0 · 访问量 784

猜你喜欢

转载自blog.csdn.net/heixue666/article/details/92954512
今日推荐