再度学习大数据技术与应用(厦门大学林子雨)

再度学习大数据技术与应用(厦门大学林子雨)

4V概念

大数据 -结构化数据与非结构化数据组成

  1. 数据量大
  2. 处理速度快 (秒级决策)
  3. 价值密度低 商业价值高

大数据概念和影响

以数据为驱动去发现和解决问题,颠覆传统的方式
全样非抽样
精度非效率
相关非因果

大数据的应用

纸牌屋的拍成电视剧-大数据应用
谷歌的预测流感

大数据的关键技术

1.数据存储
分布式存储
google 技术
在这里插入图片描述
2.数据处理
分布式处理
不同的需要:

批处理

   mapreduce / spark

实时计算

流计算(实时) S4

图计算

   Pregel Graphx

交互式计算 (查询计算)

google Dremel hive

大数据与云计算

 **虚拟化与按需服务**
 公有云
 私有云
 混合云
 **三个层次:**
 Iaas Paas Saas

二大数据处理架构 hadoop

apache 项目
使用java语言开发的
两大核心 源于谷歌提供的技术
HDFS + Mapreduce
高可靠性
高效性 集群
高扩展性
高容错性
成本低
High performance computing

数据分析 实时查询 数据挖掘
Hadoop大体应用

2.2 hadoop 项目结构

项目架构

  1. HDFS 分布式文件存储

  2. YARN 资源管理和调YARN 资源管理和调

  3. MapReduce 离线处理

  4. Tez (DAG 有向图计算, 运行在yarn上面,查询处理框架)
    Tez 构建有向无环图

  5. sprk 在内存中进行计算加快数据读取计算速度spark 类似一Mapreuce 并行框架

  6. Hive 数据仓库 用于企业决策分析 大量历史数据hadoop平台上面的数据仓库
    将SQL语句转化为Mapreduce作业

  7. pig 流数据处理
    pig 轻量级分析
    pig 简化处理使用一条语句代替多条mapreduce语句

  8. Oozie 作业流调度系统

oozie 作业流

  1. Zookeeper 分布式协调服务
    提供分布式协调一致性服务
    分布式锁
    集群管理
    在这里插入图片描述

  2. Hbase Hadoop上非关系型分布式数据库Hbase 超大型随机读取数据库

  3. Flume 日志收集分析
    流日志处理分析

  4. Sqoop 用于在Hadoop与传统数据库之间进行数据传输Hdfs Hbase Hive 互相导入

  5. Ambari 部署工具部署一整套Hadoop套件

2.3 Linux与Hadoop的安装


workstation 12(以上版本) + unbantu 16.04-destop-am 版本(用高的版本极大概率会出现 mysql等诸多软件版本不兼容的情况,太多报错问题,不要问我为什么知道
workstation教程自己百度

从优麒麟传送门网址官网上找到16.04的版本
下载相应的版本
下载完成后使用workstation开始创建新的虚拟机

  1. 创建典型就可以

  2. 使用光盘映像文件 ubantukylin-16.4版本(图片版本请忽略)在这里插入图片描述

  3. 设置名字账号密码相关内容在这里插入图片描述

  4. 虚拟机名称在这里插入图片描述

  5. 设置大小 建议为40或者更大, 设置为单个文件方便删除在这里插入图片描述

  6. 完成安装,安装虚拟机,确认硬件相关,优麒麟相关的内容耗费时间比较长。

2.3.2接Hadoop安装

安装hadoop3.1.3步骤传送门

2.4 Hadoop集群的部署和使用

为了照顾作业完成部署集群
在这里插入图片描述
集群硬件配置 NameNode 与 DataNode
NameNode相当于目录
datanode 存储数据
在这里插入图片描述
MapReduce作业
jobTracker 对整个作业拆分处理多个小作业然后协调处理
taskTracker部署在不同的机器上 对小作业,对于JobTracker布置的小作业进行跟踪和执行
在这里插入图片描述
在这里插入图片描述
Secondary冷备份

大部分机器是 Datanode与 TaskTracker进行数据处理,需要配置如下
在这里插入图片描述
NameNode 总管家 管理各种元数据并提供服务,很多数据保存在内存中。
在这里插入图片描述
所需要的配置更高
在这里插入图片描述
Hadoop集群工作状态在这里插入图片描述
集群的搭建原则
在这里插入图片描述
集群的网络拓扑
机架之间连接, 机架之间连接

在云平台上部署服务

猜你喜欢

转载自blog.csdn.net/huangdxian/article/details/120734446