大数据-数据内容分类

大数据-数据内容分类

结构化数据

  1. 可以使用关系型数据库表示和存储,可以用二维表来逻辑表达实现的数据

  2. 结构化数据:二维表(关系型)

  3. 结构化数据:先有结构、再有数据

  4. 数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的,存储在数据库中
    如mysql数据库中的数据、csv文件

  5. 能够用数据或统一的结构加以表示,如数字、符号

  6. 能够用二维表结构来逻辑表达实现,包含属性和元组,如:成绩单就是属性,90分就是其对应的元组

  7. 结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助

  8. 针对结构化数据存在成熟的分析工具

非结构化数据

  1. 非结构化数据顾名思义,就是没有固定结构的数据

    包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式

  2. 信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织
    相对于传统的在数据库中或者标记好的文件,由于他们的非特征性和歧义性,会更难理解

  3. 典型的人为生成的非结构化数据包括

	文本文件:文字处理、电子表格、演示文稿、电子邮件、日志
	社交媒体:来自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平台的数据
	网站: YouTube,Instagram,照片共享网站
	移动数据:短信、位置等
	通讯:聊天、即时消息、电话录音、协作软件等
	媒体:MP3、数码照片、音频文件、视频文件
	业务应用程序:MS Office文档、生产力应用程序
  1. 典型的机器生成的非结构化数据包括
	卫星图像:天气数据、地形、军事活动
	科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据
	数字监控:监控照片和视频
	传感器数据:交通、天气、海洋传感器
  1. 针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段

  2. 非结构化数据比结构化数据要多得多

随着网络技术的发展,特别是Internet和其技术的飞快发展,使得非结构化数据的数量日趋增大.

这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代
	
在过去几年里,大数据产业更多关注的是如何处理海量、多源和异构的数据,并从中获得价值,而其中绝大多数都是结构化数据.
		
如今,非结构化数据在各行各业中占比越来越多,比如医疗行业的影像资料、教育行业的教学文档、传媒行业的音视频素材,公安执法的视频存档等,越来越多行业的企业组织都需要长期存放海量非结构化数据,业务对数据的采集、管理、应用的诉求也越来越多样化

半结构化数据

  1. 介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据
    例如:HTML文档,JSON,XML和一些NoSQL数据库等就属于半结构化数据。

  2. 半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构
    包括日志文件、XML文档、JSON文档、Email等

  3. 属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。也就是它一般数据的结构和内容混在一起,没有明显的区分

  4. 半结构化数据:树、图

  5. 半结构化数据:先有数据,再有结构

猜你喜欢

转载自blog.csdn.net/ThinkPet/article/details/132121408