这篇文章把数据讲透了(一):数据来源

一、前言

我们日常生活中经常会听到这样的问题:你有数据支撑吗?你的数据来源是哪儿?数据噪声大吗?

那么这里的“数据”究竟是怎样的存在?

百度百科对数据定义很简单:数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

而仔细想想,我们日常中所指的数据真的是data吗?其实,我们更多指的是已经形成体系、有逻辑结构和实用性的“数据知识”。

所以,我们也不能把数据当作一个简单的概念,但其实“数据”里面还有很多学问。

下面先给大家引出四个“数据”相关的名词概念,后面我会分别阐述它们“价值变现”的方法论。

你真的了解data、information、kownledge、insight是什么吗?

在这里插入图片描述

  • data(菜市场买来的菜):简单的事实,未处理的,无组织的,原始的。
  • information(折菜、洗菜):经过结构化组织、处理的数据,要根据“情景和语境”使其具有相关性和实用性。
  • kownledge(下锅炒菜):是通过学习和经验联系在一起的信息地图,具有预测和决策和概括的能力。
  • insight(已经到能教别人做菜的程度):准确而深刻地理解复杂问题或情况的能力(是可以借助工具实现的)。

今天,小陈就带大家看看数据的来源及其具体类型,毕竟知己知彼,方能百战不殆,有了今天的铺垫我们才能在后面几期的学习中,能容易上手~

二、数据来源(菜市场)

如果说,data是我们烹饪所需的原材料,那么确定数据来源就好比我们出去买菜之前要先确定去哪家菜市场买菜一样;而且“菜市场”也是术业有专攻的!买海鲜去海鲜市场、买家禽要去禽类市场…数据也是一个道理,要通过你所需的领域,具体筛选数据来源,毕竟保证数据质量是烹饪佳肴的第一步~

就像前面所述,数据是一个庞大的概念,我们想要利用好,首先要知道数据的类型,根据类型再去判断来源和收集数据。

1. 按照结构化程度区分数据来源

1)非结构化数据

非结构化数据,是数据的最简形式;我们身边时时刻刻都有非结构化数据的身影且几乎唾手可得,文字、图片、声音或视频都属于非结构化数据,这类数据通常存储在文件存储库中(小白们,可以把它看作是计算机硬盘驱动器上一个组织良好的目录)。

但,从这种形状的数据中提取价值通常是最困难的;因为我们首先需要从描述或抽象数据中提取结构化特性(例如,要使用文本,我们可能需要提取主题以及文本对主题的正面或负面评价,而一千个读者就会有一千个哈姆雷特,这类信息是极具主观色彩的)。

目前,非常流行的文本挖掘技术,它的数据来源就是我们此处所说的非结构化数据。
在这里插入图片描述

2)结构化数据

结构化数据,顾名思义,是定义良好的表格数据(行和列),这意味着我们知道有哪些列以及它们包含什么类型的数据;这些数据通常存储在数据库中,在数据库中,我们可以使用SQL语言进行结构化数据的筛选,并轻松创建数据集用于我们的数据科学解决方案。

在这里插入图片描述

3)半结构化数据

半结构化数据,介于非结构化和结构化数据之间,它虽然定义了一致的格式,但是结构不是很严格,比如数据的一部分可能是不完整的或者是不同的类型;半结构化数据通常存储为文件,但是,某些类型的半结构化数据(如JSON或XML)可以存储在面向文档的数据库中。

在这里插入图片描述

2. 按照数据私密性区分数据来源

1)组织内的数据源(封闭数据源)

查找数据的第一个地方是组织内部,大多数企业目前都有ERP、CRM、工作流管理等系统在运行,这类系统通常使用数据库以结构化的方式存储数据;这些数据库包含大量的数据,您可以很容易地从中提取价值;例如,通过工作流管理系统,您可以轻松地了解业务流程中的瓶颈,或者通过使用来自ERP系统的数据,您可以进行销售预测。

2)公开的数据源(开源数据源)

除了对内非公开数据以外,许多组织接收和发送大量的文件、图片、声音或视频,这些在公网上传播留存的数据则为公开的数据源;例如,你可以想象,一家保险公司收到了很多可能附有图片的索赔(纸质的或PDF格式的),这些文件通常在处理前手动转换为更结构化的格式;但是,在这种转换中会丢失一些信息,当尝试改进我们的数据科学解决方案时,我们可以使用这些文件来提取额外的数据,比如情景概述。

后续,我们可以使用这些额外的数据改进欺诈性索赔检测,这就是公开数据源的价值。

除此之外,其实业界还有很多数据来源分类法,例如是否为实时数据、一手数据or二手数据来源….

猜你喜欢

转载自blog.csdn.net/amumuum/article/details/112801902
今日推荐