一、大数据的概述

一、什么是大数据

四个特性(4个V)

数据量大(Volume)

  • 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB)

快速化(Velocity)

  • 处理速度快,1秒级决策

多样化(Varity)

  数据类型繁多,大部分为非结构化数据。(文本,图像,视频等等等等)

  • 10%结构化数据,储存在数据库中
  • 90%非结构化数据,与人类信息密切相关

价值密度低(Value)

  • 价值密度低,很多数据并没有价值,可能有用的数据比例很低,但确有巨大的商业价值

二、大数据的影响

1、Jim Gary总结在科学研究上,人类从实验,理论,计算(计算机)发展到了数据时代。现代可以以数据为驱动,比如我们不知道问题是什么,可以仅仅通过分析数据,从而发现问题,并解决问题。

2、大数据颠覆了传统的思维方式

-  全样而非抽样

  • 由于存储和计算的技术发展,现在可以处理全部数据而不需要做统计抽样。

- 效率而非精确

  • 统计抽样要求算法精度非常高,不然放在全样时误差会被放得特别大。而现在可以全样分析,是多大误差就多大误差,我们现在更注重计算的效率。

- 相关而非因果

  • 不问为什么,只找关联。(比如淘宝告诉用户,买产品A的用户同时买了产品B,不会告诉用户为什么买产品B,只陈述这样的相关事实)

三、大数据的应用

典型应用实例

1、影视剧投资

例如:某公司对整个互联网作大数据分析,发现如果有导演大卫芬奇,影帝凯文史派西拍摄著名小说《纸牌屋》会取得成功,这也是美剧《纸牌屋》的由来。

2、谷歌预测流感

过去由各个医疗机构汇报趋势再汇总,判断是否有流感趋势,这个过程非常缓慢。

而谷歌拥有大量用户,从用户搜索流感药品的关键词,通过大数据技术,实时分析以后就可以得出是否有流感趋势,实时性非常高。

四、大数据关键技术

  1. 数据采集
  2. 数据存储和管理
  3. 数据处理与分析
  4. 数据隐私与安全

最关键的两点,两大核心技术:

  1. 分布式存储
  2. 分布式处理

大数据的计算模式

  1. 批处理计算:MapReduce, Spark (实时性低,不能做到秒级相应)。
  2. 流计算:比如日志流,用户点击流,数据一直到达。一旦批量处理则失去商业性。Storm, S4,Flume等。
  3. 图计算:图形结构的处理。 Pregel, GraphX, Giraph等。
  4. 查询分析计算: 交互式查询分析。Dremel, Hive, Cassandra等等。这类实时性很高。

五、大数据与云计算、物联网的关系。

云计算:通过网络,以服务的方式为用户提供非常廉价的IT资源(不再需要自己底层构建设施:建机房,维护设备等等。云计算也有自己的数据中心,一般由数千个刀片服务器组成)。

云计算主要解决两个问题:

  1. 解决海量的分布式存储和处理
  2. 虚拟化,多租户 

云计算的三种服务

IaaS(Infrastructure as a Service): Amazon EC2,IBM Blue Cloud,Sun Grid

  • 把底层设施当做服务提供给用户

Paas(Platform as a Service): IBM IT factory, Google App Engine, Force.com

  • 云计算的开发环境,提供各种接口,满足客户开发云产品的需求。

SaaS(Software as a Service): Google Apps, Microsoft "Software + Services"

  • 软件放在云端,不再需要本地安装,只要有网络,则可以在云端使用软件。

物联网(Internet of Things, IOT):物物相连的互联网,是互联网的延伸。比如掌上公交,可以用手机实时定位公交,等于把你的手机和公交实时连接在了一起。

  1. 第一层:感知层,传感器,摄像头等等。
  2. 第二场:网络层,通过网络传到数据中心。电信网,互联网,电网等等。
  3. 第三层:处理层
  4. 第四层:应用层

物联网的关键技术

最关键的是感知技术:二维码,RFID,传感器等等。

总结:云计算为大数据提供了技术基础。大数据为物联网提供数据分析支撑。物联网为云计算提供了应用空间。

猜你喜欢

转载自www.cnblogs.com/learnwhileucan/p/10171290.html