制造工业中的机器学习应用:I概览

前言

简单回顾一下工业中的实际的机器学习应用。这里的工业指的是第二产业,即生产制造。有时候工业界,是为了和学术界进行区分,那时的工业界更广泛一些,甚至主要指第三产业服务业了,如我们熟悉的消费互联网。

​“中国制造2025”等关乎工业互联网的政策很多,但是在第二产业里搞机器学习根本不赚钱,下次如果换工作,绝对不来Lynk这种,一定要争取去钱多的消费者互联网了。不过,工业互联网其实也很有乐趣,而且也很适合转行的人进行赛道切入,尤其是机械、化工等具备专业知识的人。说起来,年龄大了哪有什么情怀,谁不是找不到工作才先混迹工业的呢。

在这里插入图片描述

步骤和流程

如果面对一个新的任务,那如何开始整个流程呢?工业中的实际的机器学习应用,首先掌握整个流程和big picture是很重要的。以下更多是我个人工作中总结的经验,可能还有很多不足。

  • 梳理整体脉络,掌握全局,建立知识体系框架

  • 复杂任务,分解为小任务,确定每个小任务的目标和评价方式

  • 搞到数据,了解数据的来源、属性,对数据探索性分析

  • 验证、特征、训练、预测完整的快速baseline

  • 迭代优化,从数据、目标、特征、模型的角度更一步优化

  • 上线部署,要注重工程性和整体的架构 模型性能监测,继续优化的同时要对性能下降快速定位和修复

有些容易忽视的点,例如第一步。面对一个新任务首先应该试图建立整体的脉络。对工作来说,可以保证方向的正确,保证遇到问题可以站在前人的肩膀上进行解决;而对个人来说,也是提高个人能力、学习新知识的好机会,甚至去别的地方面试时都更能侃侃而谈装大佬。随着任务进行,这个脉络也在逐步的完善清晰中。

第二步,在开始任务之前,要清楚这个任务在更大情景的定位,要清楚这个任务的评价方式。所以NG才在他的“machine learning yearning”强调一定要设定单个数值的评价方式,这样才好让整个团队朝着正确的方向前进。

第三步和第五步中,要注意从实际情况进行考虑,毕竟真实场景其实不像比赛等封闭场景。可以设法搞到更多数据,可以设法搞到自己想搞的特征,也可能数据的来源里也有信息。比如我对BMW前工作印象依旧很深的一个案例,在研究汽车保修数据趋势的时候,发现了趋势并不是直观反应质量变好或变差的,而是和每个月有几个星期五强相关。继而通过调查发现,原来经销商虽然可以每天都上传数据,但几乎所有经销商都是在周五集中上传数据,导致如果这个月有5个周五的话,自然就比4个周五的多25%左右,而不是这个月的质量差、保修多。这种初看奇怪的现象,就可以通过数据的来源方式得到合理的解读了。当时如果看不到这一点,就开始做预测模型就失去预测的意义了。

第六步和第七步中,我自己也不会,也没啥工程能力,是非计算机的弱势吧。提高一些计算机基础是很有必要的。而定位线上问题一方面要积累经验,另一方面也可以通过良好的系统设计帮助我们,例如监控输入特征的数据范围、数据属性等。

后续篇章会结合具体案例介绍了。
在这里插入图片描述

联系方式

公众号YueTan

猜你喜欢

转载自blog.csdn.net/weixin_38812492/article/details/113038650