第一章-大数据概述

第一章-大数据概述


本系列博客的材料均来自厦门大学林子雨老师的教材和MOOC资料。

大数据时代

根据IBM前首席执行官 Louis Gerstner 的观点, IT领域每隔十五年就会迎来一次重大变革。

信息化浪潮 发生时间 标志 解决问题 代表企业
第一次浪潮 1980年前后 个人计算机 信息处理 Intel、IBM、苹果、微软、联想等
第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市 场标杆企业

信息科技为大数据时代提供技术支撑:

  • 存储设备容量不断增加
  • CPU处理能力大幅提升
  • 网络带宽不断增加

数据产生方式的变革促成大数据时代的来临:

  • 运营式系统阶段
    • 数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库
  • 用户原创内容阶段
    • Web2.0和智能手机的出现,强调自服务,大量上网用户本身就是内容的生成者
  • 感知式系统阶段
    • 物联网的自动数据产生方式,将在短时间内生成更密集、更大量的数据

大数据的发展历程:

阶段 时间 内容
萌芽期 1990-2000 数据挖掘理论和数据库技术的逐步成熟,“数据仓库”等一批商业智能工具和知识管理技术开始被应用
成熟期 2000-2010 Web2.0应用迅猛发展,非结构化数据大量产生,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术
大规模应用期 2010年以后 大数据应用渗透各行各业,数据驱动决策, 信息社会智能化程度大幅提高

大数据概念、影响、应用

大数据的4V特征:

  • 数据量大(Volume)
    • 大数据摩尔定律:数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍
  • 数据类型繁多(Variety)
    • 大数据是由结构化和非结构化数据组成的。10%的结构化数据,存储在数据库中;90%的非结构化数据,它们与人类信息密切相关
  • 处理速度快(Velocity)
    • 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
  • 价值密度低 (Value)
    • 大数据虽然拥有海量的信息,但是真正可用的数据可能只有很小一部分

大数据的四种范式:

  • 实验科学:采用实验的方式来解决一些科学问题
  • 理论科学:采用数学、几何、物理等理论,构建问题模型和解决方案
  • 计算科学:借助于计算机的高速运算能力来解决各种问题
  • 数据密集型科学:一切将以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值

大数据对思维方式的影响:

  • 全样而非抽样
    • 有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据
  • 效率而非精确
    • 大数据时代采用全样分析而不是抽样分析,不存在误差被放大的问题,效率成为关注的核心
  • 相关而非因果
    • 大数据时代,因果关系不再那么重要,转而追求“相关性”,告诉你关联什么而不告诉你为什么

大数据无处不在,包括金融、汽车、零售、餐饮、 电信、能源、政务、医疗、体育、娱乐等在内的 社会各行各业都已经融入了大数据的印迹。
d11

在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现

在就业市场方面,大数据的兴起使得数据科学家成为热门职业。随着数据科学家给企业带来的商业价值的日益体现,市场对数据科学家的需求会越发旺盛。

在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。目前,国内的数据科学家不是高校培养的,而主要是在企业实际应用环境中通过边工作边学习的方式成长起来的。互联网领域集中了大部分的数据科学家人才

大数据关键技术

大数据技术层次:

技术层面 功能
数据采集 利用 ETL工具将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。或者把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据存储与管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据隐私与安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

大数据两大核心技术

  • 分布式存储(解决海量数据的存储问题)
  • 分布式处理(解决海量数据的处理问题)

大数据计算模式

不同的计算模式需要使用不同的产品,企业中不同的应用场景属于不同的计算模式,需要使用不同的大数据技术。

典型的计算模式:

大数据计算模式 解决问题 代表产品
批处理计算 针对大规模数据的批量处理 MapReduce、Spark
流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
图计算 针对大规模图结构数据的处理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算 大规模数据的存储管理和查询分析 Dremel、Hive、Cassandra、Impala等

大数据与云计算、物联网的关系

云计算是通过网络以服务的方式为用户提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

云计算的典型特征:

  • 虚拟化
  • 多租户

云计算的服务模式和类型:
d12

数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境。数据中心是一整套复杂的设施,包括大量的刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等 。

物联网(IoT: Internet of Things):物物相连的互联网,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。

从技术架构上来看,物联网可分为四层

层次 功能
感知层 如果把物联网比喻为一个人体,感知层就相当于人的神经末梢,采集来自物理世界的各种信息。感知层包含了大量的传感器,如温度传感器、重力传感器、摄像头、GPS设备等
网络层 相当于人体的神经中枢,起到信息传输的作用。网络层包含各种类型的网络,如互联网、卫星通信网络等
处理层 相当于人体的大脑,起到存储和处理的作用。处理层包括数据存储、管理和分析平台
应用层 直接面向用户,满足各种应用需求。例如智慧交通、智慧农业、智慧医疗等

物联网中的关键技术:

  • 识别和感知技术(二维码、RFID、传感器等)
  • 网络与通信技术
  • 数据挖掘与融合技术

物联网应用:
d13

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,有着密不可分的关联。
d14

发布了61 篇原创文章 · 获赞 25 · 访问量 7183

猜你喜欢

转载自blog.csdn.net/qq_42582489/article/details/104931746
今日推荐