大数据VS小数据

大数据VS小数据

从以下几个方面分析大数据和小数据的差别:
1. 目标
小数据——常用于回答某个特定问题或服务于某个特定目标。
大数据——通常在思想上围绕一个目标而设计,但这个目标是可变的,摆出的问题也是千变万化的。
2. 地点
小数据——通常小数据属于某个机构,常常存储在某台电脑中,有时也会存储在某个文件夹中。
大数据——通常通过电子空间传输,被分配到多个网络服务器上,存储在地球的任何地方。
3. 数据的结构和类容
小数据——通常包含高度结构化的数据,数据域被限制在某个单一的学科之内。这些数据通常来自一个顺序电子表格,其记录格式是统一的。
大数据——必须有吸收非结构化数据的能力(如自由文本、图像、视频、实体对象等)。数据源的类容也许跨多个学科,而其中某个独立的数据对象又有可能与其他大数据资源的数据相关联。
4. 数据准备
小数据——在很多情况下, 数据使用者从其个人的目的出发准备数据。
大数据——数据来自众多多样化的数据源, 并由很多人来准备。数据的使用者很少是该数据的准备者。
5. 寿命
小数据——当数据项目结束时,小数据保存的时间有限(很少超过研究数据的传统学术寿命,即大概7年),然后被擦除。
大数据——大数据项目使用的数据通常需要永久保存。理想情况下,当原始资源寿命结束时,存储在大数据资源中的数据将被吸收到另一个资源池中。很多大数据项目累积的数据会延伸到未来和过去(例如遗留数据)。
6.测量
小数据——通常小数据使用一个实验协议来进行测量,且该数据可由某个标准单元集描述。
大数据——多不同类型的数据以多种不同的电子格式传输着。当数据可测量时,测量结果可通过多种协议获取。对数据管理者而言,确定大数据的质量是最困难的任务之一。
7.再现性
小数据——小数据项 目通常情况下是重复的。如果有关于数据质量的问题,或对数据再现性、从数据中得到的结论的正确性有疑问,那么整个项目可被重现,并产生新的数据集。
大数据——通常复制大数据几乎是不可行的。 在多数情况下,人们希望能够在大数据资源中发现坏数据并进行标记等。
8.风险
小数据——小数据项目的开销是有限的,实验室和研究机构往往能够从偶然的小数据失败中恢复过来。
大数据——大数据项目会非常昂贵。一个大数据项目的失败会导致公司破产。机构崩塌、大规模解雇员工以及存储在资源中的所有数据的瞬间瓦解。
9.内省
小数据——独立的数据点由它们在数据表或数据库中的行和列的位置识别(见术语表,Data point)。如果知道行和列的表头,那么就可以找到和列举其中包含的全部数据。
大数据——除非大数据资源可以如预期的那样设计良好,否则即便是数据管理员也难以理解大数据资源的内容和组织形式(见术语表,Data manager)。要获取数据、掌握数据价值信息和数据组织信息,需通过内省技术才能达成(见术语表,Introspection)。
10.分析
小数据——大多数情况下,项目中的所有数据可同时进行全部分析。
大数据——无论 是在超级计算机中还是在多个计算机中并行进行的大数据分析几乎都需要一步步递增式完成(见术语表,Parallel computing, MapReduce)。这些数据需经过多种方法进行提取、查看、删减、标准化、转换、可视化、释义和再分析等操作。

文章摘自—— 大数据原理 [美] 朱尔斯 J. 伯曼

猜你喜欢

转载自blog.csdn.net/weixin_40408952/article/details/107512441