前言

简单回顾一下工业中的实际的机器学习应用。这里的工业指的是第二产业，即生产制造。有时候工业界，是为了和学术界进行区分，那时的工业界更广泛一些，甚至主要指第三产业服务业了，如我们熟悉的消费互联网。

“中国制造2025”等关乎工业互联网的政策很多，但是在第二产业里搞机器学习根本不赚钱，下次如果换工作，绝对不来Lynk这种，一定要争取去钱多的消费者互联网了。不过，工业互联网其实也很有乐趣，而且也很适合转行的人进行赛道切入，尤其是机械、化工等具备专业知识的人。说起来，年龄大了哪有什么情怀，谁不是找不到工作才先混迹工业的呢。

在这里插入图片描述

步骤和流程

如果面对一个新的任务，那如何开始整个流程呢？工业中的实际的机器学习应用，首先掌握整个流程和big picture是很重要的。以下更多是我个人工作中总结的经验，可能还有很多不足。

梳理整体脉络，掌握全局，建立知识体系框架
复杂任务，分解为小任务，确定每个小任务的目标和评价方式
搞到数据，了解数据的来源、属性，对数据探索性分析
验证、特征、训练、预测完整的快速baseline
迭代优化，从数据、目标、特征、模型的角度更一步优化
上线部署，要注重工程性和整体的架构模型性能监测，继续优化的同时要对性能下降快速定位和修复

有些容易忽视的点，例如第一步。面对一个新任务首先应该试图建立整体的脉络。对工作来说，可以保证方向的正确，保证遇到问题可以站在前人的肩膀上进行解决；而对个人来说，也是提高个人能力、学习新知识的好机会，甚至去别的地方面试时都更能侃侃而谈装大佬。随着任务进行，这个脉络也在逐步的完善清晰中。

第二步，在开始任务之前，要清楚这个任务在更大情景的定位，要清楚这个任务的评价方式。所以NG才在他的“machine learning yearning”强调一定要设定单个数值的评价方式，这样才好让整个团队朝着正确的方向前进。

第三步和第五步中，要注意从实际情况进行考虑，毕竟真实场景其实不像比赛等封闭场景。可以设法搞到更多数据，可以设法搞到自己想搞的特征，也可能数据的来源里也有信息。比如我对BMW前工作印象依旧很深的一个案例，在研究汽车保修数据趋势的时候，发现了趋势并不是直观反应质量变好或变差的，而是和每个月有几个星期五强相关。继而通过调查发现，原来经销商虽然可以每天都上传数据，但几乎所有经销商都是在周五集中上传数据，导致如果这个月有5个周五的话，自然就比4个周五的多25%左右，而不是这个月的质量差、保修多。这种初看奇怪的现象，就可以通过数据的来源方式得到合理的解读了。当时如果看不到这一点，就开始做预测模型就失去预测的意义了。

第六步和第七步中，我自己也不会，也没啥工程能力，是非计算机的弱势吧。提高一些计算机基础是很有必要的。而定位线上问题一方面要积累经验，另一方面也可以通过良好的系统设计帮助我们，例如监控输入特征的数据范围、数据属性等。

后续篇章会结合具体案例介绍了。
在这里插入图片描述

联系方式

公众号YueTan

制造工业中的机器学习应用：I概览

前言

步骤和流程

联系方式

猜你喜欢