大数据 Big Data 学习笔记 大数据框架

一、Big Data名字由来

  • 20世纪九十年代,数据仓库之父Bill lnmon就经常提及Big Data。
  • 2011年5月,在“云计算相遇大数据”为主题的会议中抛出了Big Data的概念,重点是如何管理PB级数据量,通过分析挖掘这些数据的价值,确保及时向相关人员提供信息。

二、Big Data定义

1.定义:

  • 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据结合。
  • 通俗来讲,就是数据存储,数据管理,数据计算与数据分析。

2.本质:

  • 物理世界在数字世界的映像。

3.目标:

  • 更多维度的数据,挖掘事务背后的因果关系。

三、大数据的四个微特征

1.数据量巨大 (Volume)

  • 集中存储/集中计算已经无法处理巨大的数据量

2.种类和来源多样化 (Variety)

  • 日志/图片/视频/文档/地理位置…

3.分析处理速度快(Velocity)

  • 海量数据的及时有效分析。

4.价值密度低,商业价值高(Value)

  • 大量的不相关信息进行复杂深度分析,深挖价值。

四、大数据的结构特征

1.结构化数据

例如关系型数据库中的二维表。这类数据最容易处理。

2.半结构化数据

例如HTML。

3.非结构化数据

例如视频、语音等。这类数据最多,但是最不容易处理。

五、数据处理技术分布式演进趋势

在这里插入图片描述

六、Hadoop大数据处理平台

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

七、华为大数据解决方案(Fusion Insight)

在这里插入图片描述

  • Fusion Insight Miner:数据分析、数据挖掘
  • Fusion Insight HD:数据存储和数据计算
  • Fusion Insight Farmer:应用级开发
  • Fusion Insight LibrA:数据存储(数据库)
    在这里插入图片描述

八、电信级可靠性——系统可靠性

  • 业务无单点
    • 组件采用主备,负荷分担方式实现服务无单点故障
  • 管理节点HA
    • OMS节点及所有街舞组件中心管理节点实现HA
    • HA就是高可用
  • 跨DC容灾/备份
    • HBase集群通过HLOG准实时复制,HDFS/Hive集群通过Backup Admin异步复制实现跨数据中心灾备
    • 备份是数据,容灾是业务
  • 第三方备份系统集成
    • 数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成

九、电信级可靠性——数据可靠性

  • OS层可靠性加固:
    • RAID/OS写缓存保护实现掉电数据保护。
  • Raid策略:
    • OS,OMS,NameNode,ZK及HDFS数据节点采用不同硬盘分区及Raid策略,兼顾性能情况下保证数据可靠性。
  • 快速故障检测:
    • 结合华为存储产品经验,尽快发现故障硬盘,降低MTTR,提高数据可靠性。
  • 硬盘热插拔:
    • 支持在线集群硬盘更换不影响业务,降低MTTR。
  • 第三方备份系统集成:
    • 数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成。
  • 跨数据中心数据备份:
    • HBase 集群通过HLOG准实时复制,HDFS/Hive集群通过BackupAdmin异步复制实现跨数据中心备灾。
发布了3 篇原创文章 · 获赞 6 · 访问量 212

猜你喜欢

转载自blog.csdn.net/weixin_44093607/article/details/103658955