数据开发(数据来源)

前言:早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。2008年9月《自然》杂志推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
数据来源
1.业务系统 
基于公司的业务系统获取相对的数据,例如大数据下硬件信息数据磁盘,网络,节点存活,带宽等信息。业务系统一般是企业的重要的数据来源,业务系统的数据一般都是格式化以及高质量的。

 2.web端页面
基于特定的获取方式指定的网址下结构非结构数据。web系统也会存储各种样式的数据,行为日志,图片,视屏的数据结构并非很格式化。

3.外部系统
获取指定软件的日志数据。类似爬虫获取的公开的数据能够对内部数据做补充,为指标等做数据的铺垫。

4.内部数据库
公司多年积累的客户数据或者订单数据等。

5.人工整理
手动整理的数据。

数据分类

 结构化数据:结构化的数据非常规范带有字段以及对应格式的数据。

非结构化数据:顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

半结构化数据:是结构化数据的一种形式,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,也被称为自描述的结构。

常见的半结构数据有XML和JSON,比如:

<name>
<Id>194646270</Id>
<sex>23</sex>
<address>北京</address>
</name>
————————————————
版权声明:本文为CSDN博主「布小昕」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Dkey_775/article/details/103494614

猜你喜欢

转载自www.cnblogs.com/wxkhjWW1/p/12030436.html
今日推荐