大数据与数据分析概述

何为数据?——数据的几种定义

  • 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。

  • 数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的。

  • 数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

  • 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。

  • 在计算机系统中,数据以二进制信息单元0,1的形式表示。

数据的本质:

  • 数据的本质是生产资料和资产。
  • 数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。
  • 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的定义:

大数据(big data)是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
Big data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, querying and information privacy.

大数据的4V特征

  • 数据规模大从TB跃升到PB甚至EB。

  • 数据价值高,价值密度低
    海量数据带来了巨大的商业价值。数 据之间关联性支持深层的数据挖掘。

  • 数据类型多
    越来越多非结构化数据;音频、视频,地理位置信息等多类型数 据对数据处理能力提出更高要求。

  • 数据处理速度快
    对数据实时处理有着极高的要求, 通过传统数据库查询方式得到的 “当前结果”很可能已经没有价值。

    大数据的4V特征之大量化(Volume)
    企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。
    在这里插入图片描述
    在这里插入图片描述

    大数据的4V特征之价值密度低(Value)
    价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

    大数据的4V特征之快速化(Velocity)
    高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。

    大数据的4V特征之数据类型繁多(Variety)
    这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

数据分析概述

  • 定义:
    数据分析是指用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。
  • 作用:
    现状分析、原因分析、预测分析
  • 数据分析的类型:
    描述性数据分析属于初级分析方法,是我们工作中最常用的数据分析方法。
    探索性数据分析侧重于在数据中探索新的特征。
    验证性数据分析侧重于验证之前假设的真伪性。
    探索性数据分析以及验证性数据分析属于高级分析方法,常见的分析方法有相关分析、因子分析、回归分析等。

猜你喜欢

转载自blog.csdn.net/EverestRs/article/details/82933676