Arize AI 对顶级 ML 团队调查得出的 3 个结论

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第9天,点击查看活动详情

文本重点介绍了 Arize AI 和 MLOps 社区最近对 ML 团队的调查结果。要查看完整结果,请下载报告副本

与 DevOps 或数据工程相比,MLOps 作为一种实践仍然相对年轻,尽管增长巨大。虽然很容易将其与 DevOps 相提并论,因为它的一些最佳实践很容易延续到 MLOps,但业内大多数人都认为,在将 ML 投入生产时存在一系列独特的挑战和需求。不幸的是,很少有可靠的行业调查来记录团队在应对这些不同挑战方面的表现。

为了解决这个问题,并让 MLOps 从业者从同行那里获得关于如何专业发展以及交付和维护更好模型的见解,我们最近对 945 名数据科学家、ML 工程师、技术主管和其他人进行了一项调查。结果表明,当模型失败时,需要更好地跨团队协作和更好的工具来帮助更快地进行根本原因分析。

以下是该调查关于 ML 监控和可观察性的三个主要发现,以及关于团队可以采取哪些措施的建议。

解决模型问题仍然太痛苦和缓慢

尽管取得了进展,但 ML 团队在生产环境中的故障排除、分类和解决模型问题方面经常面临延迟和挫折。 总之,84.3% 的数据科学家和 ML 工程师表示,至少在某些时候,检测和诊断模型问题所花费的时间对他们的团队来说是一个问题,超过四分之一 (26.2%) 的人承认这需要他们一周或更长时间来检测和修复模型的问题(即在检测到概念漂移(concept drift)后重新训练生产中的模型)。 一周或更长时间的延迟在金融服务中最为常见,其次是医疗保健和技术团队。

image.png

据近一半(48.6%)的团队称,大流行病(新冠疫情)后的环境加剧了漂移和性能问题。

以下哪一项最准确地描述了自 covid-19 出现以来您的角色发生了怎样的变化?如下图所示。 image.png

建议

评估并实现一个 ML 可观测性平台,帮助暴露和消除AI盲点。

几乎所有的 ML 团队都在监控已知的知识(模型指标,如准确性、AUC、F1等),大多数团队还试图通过解释性来解决黑盒AI(已知的未知数)。然而,通常缺少的是解决方案(暴露团队没有积极寻找的问题):盲点或未知的未知数。真正的ML可观察性可以帮助消除盲点,在隐藏的问题影响业务结果之前自动将其呈现出来。使用现代 ML 可观测性平台的团队可以快速可视化所有潜在问题,只需单击几下鼠标即可执行根本原因分析,而不是编写看似无休止的查询来找出性能下降的根源。

ML 团队需要与业务主管更好地沟通

尽管在 COVID-19 之后,ML 模型可以说对业务结果更为关键,但数据科学家和 ML 工程师报告的半数以上(54%)的数据显示,他们遇到的问题是,企业管理人员通常不能量化 ML 倡议的投资回报率。

几乎同样多的人(52.3%)也报告说,企业高管并不一贯的理解机器学习。造成这种脱节的可能原因是,“与团队中的其他人共享数据”和“在新模型更好时说服利益相关者”,至少对 80% 以上的 ML 从业者来说,有时仍然是个问题。

下图展示了您多久会遇到一次以下问题? image.png

建议

提高内部可见性、提高 ML 读写能力并将模型指标与业务结果联系起来

业务主管需要更好地访问工具和易于理解的相关 KPI,包括最重要的是量化 AI 投资回报率(ROI)的方法。

通过将 ML 模型性能指标与关键业务指标联系起来,并允许高管访问跟踪进度的仪表盘,ML团队可以确保更广泛的认同。 为了帮助实现这一点,评估 ML 可观察性平台的 ML 团队可能需要考虑产品功能,例如:支持设置用户定义的函数以将模型性能与业务结果联系起来,能够将预生产模型与当前生产模型进行比较的能力(冠军和挑战者),并能够动态分析基于概率的决策模型的阈值。此外,一个支持图表共享链接并保存过滤器的平台也有助于跨团队协作。

可解释性很重要,但它不是一切

尽管技术主管高度重视可解释性,但 ML 工程师(通常是将模型投入生产并在那里维护它们的人)将监测和故障排除作为一个更高的优先级,请将可解释性与监控性能和数据质量问题相提并论。

image.png

建议

不要仅仅依靠可解释性;采取积极主动的方法进行模型性能管理。

专注于模型生命周期的预生产阶段的可解释性——训练模型并在部署前验证它——可能很有用。然而,一旦模型投入生产,继续将大量资源用于可解释性的效用有限,因为它会创建一个被动反馈循环。虽然在生产中对模型性能进行故障排除时,可解释性有助于妥善处理,但它并不能帮助您发现盲点,就像数据质量监控有助于在推理分布发生重大变化之前主动发现潜在问题一样。通过在给定模型中设置自动性能监视器,ML 团队可以拥有第一道防线——尤其是如果能够比较 A/B 数据集并执行数据质量检查的话。跨环境或生产前期的漂移监测也可能是模型输出发生变化的早期信号。

总结

虽然这些不是 MLOps 团队面临的唯一问题,但根据受访者的说法,它们是最突出的一些问题。

原文链接:3 Takeaways From Our Survey Of Top ML Teams

猜你喜欢

转载自juejin.im/post/7104314758094028808