数据可观察性如何帮助数据目录计划

您获得了数据信任的机会——不要搞砸了
数据目录可以促进数据采用和民主化,但正如他们所说,“你只有一次机会留下第一印象。” 

根据我们的经验,大多数业务利益相关者都会信任数据,直到他们有理由不信任它为止。不幸的是,只有少数情况——或单一事件,例如一家上市公司的错误财务报告——冲突或缺失的数据会失去怀疑的好处。例如,Resident 数据工程主管 Daniel Rimon 最初的挑战是通过数据可观察性解决的。

“利益相关者和高管无法访问他们做出决策所需的最新数据。它还对业务部门之间的关系产生了负面影响。例如,如果你从事数据工程,它可能会导致与 BI 或分析团队的关系紧张……有时公司的首席执行官会让我、我的老板和我松懈,'发生了什么事?我们没有任何销售吗?所以这就是我的噩梦——收到一条消息说“数据已关闭。数据已损坏,”丹尼尔说。

那时,关系发生了变化,管理数据质量的负担也发生了变化。高管和产品经理求助于他们的领域分析师,他们现在对数据或报告是否可信拥有最终决定权。 

这使得评估数据质量成为基于分析师直觉的定性判断,而不是侧重于服务水平指标和协议(SLI 和 SLA)的定量练习。它还违背了数据采用计划的最初目的:利用自助服务机制使组织更加灵活和数据驱动。

另一方面,您可以通过将数据可观察性作为您的第一站,将您的数据采用之旅提升到一个新的水平。数据信任不仅可以作为采用的促进剂,而且每个编目和发现的数据集都可以被标记和认证,传达它应该产生的适当级别的支持和信任。 

我的一位同事曾在《纽约时报》担任数据和洞察高级副总裁,每季度必须在送往华尔街的数据旁边签上自己的名字。我敢打赌,一旦他有了数据可观察性解决方案并且走上了获得认证的“黄金”数据集的道路,他的手就会感觉更加稳定!

数据可观察性是您的数据团队的快速胜利
这枚硬币的另一面是数据领导者可以在快速获胜后迅速获得更长的控制权,其中数据可观察性无疑是合格的。机器学习监控器的美妙之处在于配置时间以分钟为单位,而不是几小时或几周。

实现价值的时间很快。在大约 2 周的培训期后,全自动、现场级血统在集成后 24-48 小时内填充,并自动发出体积、分布、模式和新鲜度触发警报。

自动分发警报的示例显示影响两个关键资产的“account_id”字段中的异常。

自动分发警报的示例显示影响两个关键资产的“account_id”字段中的异常。 
这些警报非常可行。它们可以路由到您选择的渠道,包括共享的 Slack/Teams 渠道,以实现透明和协调的分类。从第一次修复开始可能造成的损害与减轻的损害之间的差值就可以立即看出价值。 
这也是 Farmer's Dog 的数据战略和洞察主管 Rick Saporta 的经历。

“我什至没想到会收到通知,”里克说。“我认为还有另一个工作阶段,我们必须设置它们。我想,‘好吧,我们已经配置好了,下周我会找一些空闲时间,我会真正开始设置它,这样我们就会收到这些通知。’ 

然后砰的一声,我的收件箱里就收到了一封。从那时起,我们收到了所有类型的不同异常的通知,我不会想去检查。我一直在回想我们最初的‘6 个月计划’,以及我们从 [我们的数据可观察性平台] 获得的如此多的警报甚至不在我们最初的计划中。”

虽然您可以通过精细的路由、详细的分类剧本和衡量良好的 SLA 来扩展您的复杂性,但没有必要从指导委员会、治理老虎团队或其他需要大量编纂或共识的较慢的、包罗万象的组织方法开始。

更好的是,分类和数据质量改进流程创建了许多连接、共享词汇和部门内流程,这些在为期 12 个月的数据目录计划期间可能会有所帮助。您通过实践有机地创建过程,这是 Vimeo 在实施数据可观察性时发现的。

“我们开始建立这些关系,我知道谁是驱动数据集的团队,”Lior(现在是前任)Vimeo 数据副总裁说。“我可以在发出警报的地方设置这些 Slack 频道,并确保利益相关者也在那个频道上,发布者也在那个频道上,我们有一个完整的 kumbaya 来了解是否应该调查一个问题。

您与更多数据驱动的团队建立了关系。他们中的一些人对解决这些问题感到兴奋……它在您设定期望并升级与利益相关者的那一刻开始对话,[数据可观察性]有助于促进这些讨论。”

数据可观察性允许您释放资源用于目录实施
当数据团队不再花半天时间修复损坏的数据时,他们能取得什么成就,我真的很惊讶。事实证明;这真的是他们一天的一半。 

我们最近与 Wakefield Research 进行的数据质量状况调查发现,2022 年数据专业人士平均每天有 40% 的时间花在数据质量问题上。

当您需要全力以赴时,重新获得这 40% 的额外容量并将其用于雄心勃勃的数据目录和治理计划不是很好吗?更不用说,一旦你灌输了数据信任,通常更容易获得额外的资源,正如 Lior 在 Vimeo 案例研究中指出的那样:

 “如果不建立对数据的信任感,就很难提倡雇佣更多员工并为企业承担更多风险。去年我们花了很多时间来创建数据 SLA 或 SLO,以确保团队对业务有明确的期望,以及什么时候对任何数据中断做出响应。”

数据可观察性有助于优化编目资产并确定其优先级
数据来得又快又乱,因此完全编目数据生态系统的愿景就像警笛声一样诱人。您传输数据的能力实际上是无限的,但您受到人类使数据具有持续意义的能力的限制。 

几乎每个头发花白的数据老手都有一个关于他们如何失败的恐怖故事,C-suite 驱动的尝试和分类每一个搁浅的数据资产的计划。 

虽然目录现在有点灵活,但对这些举措采取绝对主义/瀑布式观点仍然存在风险。数据团队需要以敏捷的方式集中精力和行动。 

数据可观察性解决方案提供了对可以弃用的遗留数据资产的健康状况、使用情况和沿袭的洞察。生态系统内依赖关系的实时可视化可以让您有信心弃用数据集,因为知道它不是以您的主管最喜欢的仪表板结束的复杂链条的一部分。这使您的环境更易于管理并节省了计算量,这是双赢的!

数据可观察性解决方案还可以利用机器学习来了解您的数据和您的组织如何相互关联,从而对关键资产做出明智的决策。这些关键资产是启动敏捷数据目录计划的好地方。

为正确的用例选择正确的工具
数据目录、数据可观察性和数据质量解决方案都解决了独特的用例,但也有一些重叠。
数据目录、数据可观察性和数据质量解决方案都解决了独特的用例,但也有一些重叠。 

我们经常收到的一个请求是解释功能差异或数据目录与数据可观察性解决方案解决的问题。
它们是不同的解决方案,可以很好地协同工作以解决不同的用例。正如Datanami指出的那样,数据目录提供了很多价值,因为它们能够“在业务讨论数据的方式和数据在技术上的存储方式之间架起一座桥梁。市场上几乎所有的数据目录——现在有近 100 个——都可以做到这一点。”

即使当您考虑数据沿袭等共享功能时,重点也是不同的。Monte Carlo 构建我们的数据沿袭以防止数据事件并加速解决问题。我们提供的上下文和我们的 UI 是为数据工程师和其他精通数据的用户设计的,以完成这项任务,而不是为管理员设计的东西来帮助他们的编目活动。

归根结底,采用新解决方案的过程始终归结为确保您拥有适合正确工作的正确工具。如果您有上述用例并且需要尽早证明价值,那么数据可观察性可能是您更安全的选择。

猜你喜欢

转载自blog.csdn.net/wouderw/article/details/128140840