再度学习大数据技术与应用(厦门大学林子雨)
4V概念
大数据 -结构化数据与非结构化数据组成
- 数据量大
- 处理速度快 (秒级决策)
- 价值密度低 商业价值高
大数据概念和影响
以数据为驱动去发现和解决问题,颠覆传统的方式
全样非抽样
精度非效率
相关非因果
大数据的应用
纸牌屋的拍成电视剧-大数据应用
谷歌的预测流感
大数据的关键技术
1.数据存储
分布式存储
google 技术
2.数据处理
分布式处理
不同的需要:
批处理
mapreduce / spark
实时计算
流计算(实时) S4
图计算
Pregel Graphx
交互式计算 (查询计算)
google Dremel hive
大数据与云计算
**虚拟化与按需服务**
公有云
私有云
混合云
**三个层次:**
Iaas Paas Saas
二大数据处理架构 hadoop
apache 项目
使用java语言开发的
两大核心 源于谷歌提供的技术
HDFS + Mapreduce
高可靠性
高效性 集群
高扩展性
高容错性
成本低
High performance computing
数据分析 实时查询 数据挖掘
2.2 hadoop 项目结构
-
HDFS 分布式文件存储
-
YARN 资源管理和调
度 -
MapReduce 离线处理
-
Tez (DAG 有向图计算, 运行在yarn上面,查询处理框架)
-
sprk 在内存中进行计算加快数据读取计算速度
-
Hive 数据仓库 用于企业决策分析 大量历史数据
将SQL语句转化为Mapreduce作业 -
pig 流数据处理
pig 简化处理使用一条语句代替多条mapreduce语句 -
Oozie 作业流调度系统
-
Zookeeper 分布式协调服务
分布式锁
集群管理
-
Hbase Hadoop上非关系型分布式数据库
-
Flume 日志收集分析
-
Sqoop 用于在Hadoop与传统数据库之间进行数据传输
-
Ambari 部署工具
2.3 Linux与Hadoop的安装
用
workstation 12(以上版本) + unbantu 16.04-destop-am 版本(用高的版本极大概率会出现 mysql等诸多软件版本不兼容的情况,太多报错问题,不要问我为什么知道)
workstation教程自己百度
从优麒麟传送门网址官网上找到16.04的版本
下载完成后使用workstation开始创建新的虚拟机
-
创建典型就可以
-
使用光盘映像文件 ubantukylin-16.4版本(图片版本请忽略)
-
设置名字账号密码相关内容
-
虚拟机名称
-
设置大小 建议为40或者更大, 设置为单个文件方便删除
-
完成安装,安装虚拟机,确认硬件相关,优麒麟相关的内容耗费时间比较长。
2.3.2接Hadoop安装
安装hadoop3.1.3步骤传送门
2.4 Hadoop集群的部署和使用
为了照顾作业完成部署集群
集群硬件配置 NameNode 与 DataNode
NameNode相当于目录
datanode 存储数据
MapReduce作业
jobTracker 对整个作业拆分处理多个小作业然后协调处理
taskTracker部署在不同的机器上 对小作业,对于JobTracker布置的小作业进行跟踪和执行
Secondary冷备份
大部分机器是 Datanode与 TaskTracker进行数据处理,需要配置如下
NameNode 总管家 管理各种元数据并提供服务,很多数据保存在内存中。
所需要的配置更高
Hadoop集群工作状态
集群的搭建原则
集群的网络拓扑
机架之间连接, 机架之间连接
在云平台上部署服务