机器学习从业者 工作内容

1、理解上下文:

  • 可以从机器学习中获益的业务领域
  • 与其他利益相关者沟通什么是机器学习,机器学习不具备的能力是什么 (通常有很多误解)
  • 了解业务战略、风险和目标,以确保每个人都达成共识
  • 确定组织拥有的数据类型
  • 适当地构建和审视任务
  • 了解操作约束 (例如,在推理时选出实际可用的数据)
  • 主动识别道德风险,包括性骚扰、猥亵、独裁政府滥用你的工作,或进行宣传 / 虚假宣传活动 (并计划如何减少这些风险)
  • 识别潜在的偏见和潜在的负反馈循环

2、数据:

  • 制定计划收集更多不同的数据(如果需要及可能的话)
  • 将来自许多不同来源的数据拼接在一起:这些数据通常以不同的格式或不一致的惯例收集
  • 处理丢失或损坏的数据
  • 可视化数据
  • 创建合适的训练集、验证集和测试集

3、建模:

  • 选择使用哪个模型
  • 将模型资源需求为约束条件(如,完成的模型是否需要在边缘设备上运行,是否在低内存或高延迟环境中运行等)
  • 选择超参数(如,在深度学习的情况下,这包括选择架构、损失函数和优化器)
  • 训练模型(并调试它为什么训练没有成功)。这可能包括:
  • 调整超参数(如学习率)
  • 输出中间结果,查看损失、训练误差及验证误差是如何随时间变化的
  • 检查模型上错误的数据来查找模式
  • 识别数据潜在的错误或数据
  • 明确需要改变清洗和预处理数据的方式
  • 明确需要更多或不同的数据扩充
  • 明确需要更多或不同的数据
  • 尝试不同的模型
  • 确定数据是否欠拟合或过拟合

4、产品化:

  • 创建一个 API 或 Web 应用,将你的模型作为端点以实现产品化
  • 将模型导出为所需的格式
  • 计划你的模型需多久一次使用更新的数据进行再训练(如,你可能会每晚或每周进行再训练)

5、监控:

  • 跟踪模型的性能表现
  • 监控输入数据,以确定它是否随时间变化,从而使模型无效
  • 将结果转达给组织的其他成员
  • 指定计划,监督和应对错误和意外后果

强调机器学习(特别是深度学习)中,最耗时的是

  1. 处理数据格式化、不一致和错误,通常是一个混乱、乏味的过程。
  2. 众所周知,训练深度学习模型是一个脆弱的过程。

猜你喜欢

转载自blog.csdn.net/duanshao/article/details/82390366