数据如何变成知识(3):提取暗数据

转发自IBM社区：https://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-3/index.html?ca=drs-

在我的上一篇文章中，您了解了数据湖如何允许存储大量多格式数据，从而帮助加速数据摄入和降低摄入成本。廉价存储技术的出现，使组织能更轻松、更便宜地存储大量数据。

组织存储数据有许多原因，通常是为了保留记录和遵守法规。不幸的是，许多公司从未使用他们存储的哪怕一小部分数据，而且良好数据可能无法访问，因为存储储备库没有恰当地对元数据标签进行归档，集成的工具无法读取某些数据格式，或者该数据无法通过查询来检索（对于扫描文档、医学图像文件、录音、视频和一些机器生成的数据格式，特别容易出现最后一种情况）。

组织在正常运营期间例行存储的这些未利用的数据称为暗数据。暗数据是生成良好的数据分析结果的一个主要限制因素，因为所有数据分析的质量都依赖于可供分析工具访问的数据内容，无论是快速访问还是获取完整细节。

Gartner 将暗数据定义为“组织在常规业务活动中收集、处理和存储，但通常无法用于其他用途的信息资产”。

不是只有公司在跟暗数据打交道：暗数据存在许多日常示例。例如，我阅读过大量技术文章和期刊；在研究期间，我经常下载并存储 PDF 文件或链接，以供以后参考。这些文件没有描述性名称，而且许多文件（尤其是电气与电子工程师协会论文）仅使用了一个数字文档标识符。没有描述性信息，就无法按关键词搜索特定文章。要找到一篇特定的论文，可能需要打开并检查每个文档，直到获得想要的文章 — 这是一个耗时的、低效的过程。此外，我常常反复执行搜索，直到一次下载尝试导致重复的文件错误时，才意识到自己已经拥有该文件。

我可以通过更好的数据治理来减轻这一问题，比如按类别来将文件存储在不同文件夹，或者向文件属性添加描述性元数据。但是，在搜索时这么做会消耗时间，而且会打乱我的思路。结果导致我得到了一组经常重复的文件，我可能从未实际使用它们，但仍将它们保存了下来，因为它们可能会在将来变得有用。换言之，我的 Downloads 文件夹（我的个人数据湖）已变成了一个数据沼泽。

日常暗数据的另一个例子是数码照片。数码相机通常遵循按顺序对图片文件编号的文件命名约定，而将图像下载到计算机驱动器或云的程序通常采用基于日期的组织结构。但是，如果您想搜索某个特定位置、人或事件的照片，则需要手动检查这些照片，因为没有对照片创建日期与搜索上下文之间的关联进行归档。照片嵌入了元数据，但只有专业摄像师才可能使用此特性。

一些智能应用程序解决了这两个问题，最初是通过使用基于规则的搜索和排序方法，但后来逐渐开始使用机器学习和深度学习。桌面搜索工具可以扫描文档内容并根据关键词来查找文档，照片组织工具可以对面部、地标和特征进行组织，以便自动对照片进行分类。

本系列的这一期将探讨导致创建暗数据的因素、为了更有效地综合处理和管理数据而采取的步骤，以及在这之后可用来提取和使用暗数据的方法。

数据为什么会变成暗数据？

数据变得无法访问和不能用有许多原因，但首要原因是大数据很大。不只是大，而是难以置信的大。来看一些社交媒体统计数据：2017 年，平均每分钟里，Twitter 用户发送 50 万条推文，400 万 Facebook 用户点赞。

看看大数据的 3 个特征：

数据量：大数据通常具有很大的量，而且处理此数据既耗钱又耗时间。正因如此，一些组织倾向于延迟处理，直到有必要和合理的理由执行处理。例如，美国联邦政府要求使用电子医疗记录，迫使医疗结构将其纸质记录数字化。但是这些记录大多是扫描图像形式的。医生可以轻松地找到一条患者记录，但信息检索和分析系统无法访问该记录中的数据。
种类：数据也具有各种不同的格式，包括结构化和非结构化。例如，客户关系管理数据通常包括电子邮件、社交媒体消息、语音消息、视频等，当然还包含数据库中的传统数据。音频、图像和视频等格式需要进行预处理，提取出信息并存储为一种有利于通过查询和分析来检索的格式。同样地，出于成本和时间的原因，组织倾向于延迟这种预处理，只是简单地存储原始数据。
速度：业务交易和运营系统（比如金融行业中的股票市场交易或卡交易）可能生成高速的数据流。对这些数据的处理和结构化往往跟不上数据的传入速度。组织常常只是为了合规性和审计而存储此数据。因为没有处理该数据的直接需求，所以导致延迟处理，仅存储原始数据。

缺乏数据来源

数据也可能由于缺乏来源而变成暗数据。数据科学家依靠数据源的可信度来确保数据分析产品是可信和可再现的。如果数据没有来源，就无法作为可靠的信息来源。第 2 部分表明，通过保留非结构化数据和原始数据，数据湖有助于简化对来源的综合处理。

糟糕的元数据归档

数据源变得不可用的另一个常见原因是缺乏良好的元数据。缺少元数据会直接导致数据变成暗数据，因为您无法通过查询来访问该数据。低劣的质量或错误的元数据也会导致好数据变得无法通过元数据搜索进行访问。类似地，可以根据标签元数据中的变体，将不一致的元数据拆分为一个类别。

暗数据的陷阱和风险

您已经了解数据如何变成暗数据。现在，我将探讨与暗数据相关的陷阱和风险。

数据质量

暗数据主要会影响用于分析的数据的质量。暗数据使得用户很难访问和查找关键信息，确认它的来源，并快速获取必要信息来制定数据驱动的良好决策。对质量的影响源于以下因素：

数据可访问性：无法访问非结构化或具有不同媒体格式（比如图像、音频或视频）的数据，会导致无法访问可以改善分析的必要信息。
数据准确性：数据分析的准确性取决于输入数据的准确性。准确的分析可以提取出更有价值的信息。因此，暗数据对提取信息的准确性和从该数据生成的信息的质量有很大影响。
数据可审计性：无法跟踪数据的来源可能导致从分析中遗漏数据，进而影响分析的质量。这进而又会导致制定错误的数据驱动决策。

数据安全性

我们存储的数据可能是敏感的，包含专用信息、商业机密，以及员工和客户的个人可识别信息，比如财务和医疗记录。在不确定他们的数据存储保存了敏感信息时，组织倾向于采用宽松的数据安全流程。然而，来自恶意黑客的数据安全破坏在不断增多，他们往往是第一个发现这些敏感信息的人。这些破坏可能导致高成本的责任和补救行动。

增加的成本

暗数据导致两方面的成本增加：

数据存储成本：尽管数据存储硬件成本在下降，但存储的信息量在呈指数级增长，而且可能长期大量累积。第三方存储管理解决方案要求申请更高的订阅等级，这导致成本急剧增长。增加的这笔成本花在了具有未知价值的数据上 — 即暗数据。
合规性：企业必须遵守许多法律和法规。一些法规（比如萨班斯-奥克斯利法案）可能推动了存储业务相关数据的需求；其他法规（比如美国医疗保险携带和责任法案和支付卡行业数据安全标准）要求加强对存储的某些敏感数据的保护，所有这些都可能导致合规监控成本增加。组织还会产生监控和安全地销毁过期数据的附加成本。结果，组织可能在达到法定期限后继续长期存储暗数据。

提取暗数据的好处

提取暗数据的组织需要花一笔开支并投入大量工程工作，但这么做有许多好处。

数据提取工具

提取组织中的暗数据的 3 个特别有效的工具包括：

DeepDive：这个开源工具由斯坦福大学开发，并由 Lattice Data 提供商业支持。在苹果公司于 2017 年收购 Lattice Data 后，开发就不再积极。
Snorkel：Snorkel（也是斯坦福大学的产品）开发了一些工具来创建数据集，以用于训练提取暗数据的学习算法。
Dark Vision：这个应用程序是一个技术验证程序，使用 IBM® Watson® 服务从视频中提取暗数据。

暗数据很宝贵

暗数据很宝贵，因为它们通常是无法以其他任何格式获取的数据。因此，一些组织继续花成本收集和存储暗数据，一方面是为了遵守法规，另一方面也希望在未来利用这些数据。

由于存在此价值，组织有时依靠人力资源来手动提取和标注该数据，然后输入到关系数据库中，尽管此过程成本高昂、缓慢且容易出错。深度学习技术能够比人类更快更准确地提取暗数据，而且提取过程更经济，需要的工程工作也更少。

更高质量的分析

如果能访问更好的数据源和更多信息，分析的质量就会显著提高。不仅可以基于更多高度准确的数据进行分析，该数据还可以快速用于分析中。结果是更快地制定更好的数据驱动决策，从而促进业务和运营取得成功。

降低成本和风险

提取暗数据，可以使组织减少暴露在风险中的机会，并减轻保护敏感信息的责任。组织还可以安全地清除不必要的数据，从而减少重复的存储和综合处理成本。遵守法规也变得更容易。

暗数据提取技术是无价之宝

除了暗数据本身之外，暗数据提取技术也非常宝贵。最新报告表明，苹果公司花 2 亿美元收购了人工智能 (AI) 公司 Lattice Data。Lattice Data 的专长是应用受 AI 支持的推断引擎来提取暗数据。

类似地，Facebook CEO Mark Zuckerberg 创立的慈善组织 Chan Zuckerberg Initiative (CZI) 以未公开的价格收购了 Meta。Meta 是一个受 AI 支持的搜索引擎研究初创公司，CZI 计划免费提供该公司的产品。

暗数据：一座未被开采的金矿

暗数据是组织在正常运营期间例行存储的未被利用的数据。通常情况下此数据不被使用，因为传统关系数据库无法访问它，这源于它的非结构化、无法使用的格式。所有数据分析的质量都依赖于可供分析工具访问的数据内容，无论是快速访问还是获取完整细节。因此，暗数据是一个重要的限制因素。

可用数据中暗数据的比例通常很高。例如，一份 IBM 报告估计，从物联网设备收集的所有传感器数据中，有 90% 的数据从未被使用过。但是，这些暗数据很宝贵，因为它的数据无法以任何其他格式获取。因此，一些组织为了遵守法规继续花成本收集和存储暗数据，并希望在将来能够利用这些数据。

存储和保护暗数据确实具有相关的成本和风险，其中一些成本和风险超出了它的价值。另外，暗数据可能具有时间敏感性，而且数据保持无法访问的时间越长，损失的价值就越大。结果，许多组织依靠人力资源来手动提取和标注该数据，然后将它们输入到关系数据库中 — 这是一个成本高昂、缓慢且容易出错的过程。深度学习的出现使创建一种新的智能数据提取和挖掘工具成为可能，这些工具可以比人类更快更准确地从暗数据中提取结构化数据。