非结构化数据是一个Oxymoron

严格来说,“非结构化数据”是一个矛盾。数据必须具有易于理解的结构。通过“非结构化数据”,人们通常指的是具有非表格结构的数据。

表格数据  是表格中的数据每行对应一个主题,每列对应一种测量。这是最容易使用的数据。

非表格数据  可能意味着除表格数据之外的任何其他数据,但在实践中它通常意味着  文本,或者它可能意味着具有  图形结构  或某种其他结构的数据。

更富有成效的讨论

我的观点不是对语言的使用进行狡辩,而是提出一个建设性的建议: 说明结构数据有什么,而不是它没有的结构

关于“非结构化数据”的讨论通常是徒劳的,因为两个人可以使用这个术语,它有两个不同的含义,并认为它们是不一致的。也许一位高管和销售代表握手达成一项并非真正达成协议的协议。

最终,必须讨论结构数据实际上具有什么,而不是它缺乏什么结构,以及该结构可被利用的程度。尽快进行讨论可以节省很多钱。

自由文本字段

一种形式的“非结构化”数据是自由文本字段。这些字段不是没有结构的。它们通常包含散文,用特定语言编写,或者至多包含少量语言。那是一个开始。从上下文应该有一个更可利用的结构。该文本是病理报告吗?Facebook状态?法律意见?

客户端将询问如何取消标识自由文本字段。你不能。如果文本是真正  自由的,那么根据定义它可以是任何东西。但是如果有一些已知的结构,那么可能有一些实用的方法来匿名化数据,特别是如果有一些容错的错误。

例如,程序可以搜索并掩盖可能的名称。这样的程序会找到“伊丽莎白”但可能找不到“女王”。因为只有几个皇后[1],这将是一个隐私泄露。此类软件也会产生误报,例如掩盖女王伊丽莎白二世的远洋班轮的名称。[2]

笔记

[1]维基百科目前的主权君主名单中仅列出了两名女性,即英国女王伊丽莎白二世和丹麦女王玛格丽特二世。

[2]该船,也称为QE2,是伊丽莎白二世女王,而君主是女王伊丽莎白二世。


猜你喜欢

转载自blog.51cto.com/14009535/2346658
今日推荐