数据的种类(结构化数据、非结构化数据、半结构化数据)

你知道吗?其实数据都是有类别之分的。在数据分析的过程中,我们会接触到很多的数据,这些数据根据结构分类可划分为三种:结构化数据、非结构化数据和半结构化数据

结构化数据

结构化的数据一般是指可以使用关系型数据库表示和存储,可以用二维表来逻辑表达实现的数据。

传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示。而结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。

对于结构化数据来讲通常是先有结构再有数据,而对于半结构化数据来说则是先有数据再有结构。

半结构化数据

半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,数据的结构和内容混在一起,没有明显的区分,因此,它也被称为自描述的结构。

简单的说半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据。例如:HTML文档,JSON,XML和一些NoSQL数据库等就属于半结构化数据。

非结构化数据

非结构化数据顾名思义,就是没有固定结构的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

典型的人为生成的非结构化数据包括:

文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。

社交媒体:来自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平台的数据。

网站:YouTube,Instagram,照片共享网站。

移动数据:短信、位置等。

通讯:聊天、即时消息、电话录音、协作软件等。

媒体:MP3、数码照片、音频文件、视频文件。

业务应用程序:MS Office文档、生产力应用程序。

典型的机器生成的非结构化数据包括:

卫星图像:天气数据、地形、军事活动。

科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。

数字监控:监控照片和视频。

传感器数据:交通、天气、海洋传感器。

猜你喜欢

转载自blog.csdn.net/sj349781478/article/details/125019765