Kudu
导读
-
什么是
Kudu
-
操作
Kudu
-
如何设计
Kudu
的表
1. 什么是 Kudu
导读
-
Kudu
的应用场景是什么? -
Kudu
在大数据平台中的位置在哪? -
Kudu
用什么样的设计, 才能满足其设计目标? -
Kudu
中有什么集群角色?
1.1. Kudu 的应用场景
- 现代大数据的应用场景
-
方案一: 使用
Spark Streaming
配合HDFS
存储 -
方案二:
HDFS
+compaction
-
方案三:
HBase
+HDFS
-
方案四:
Kudu
总结
对于实时流式数据处理, Spark
, Flink
, Storm
等工具提供了计算上的支持, 但是它们都需要依赖外部的存储系统, 对存储系统的要求会比较高一些, 要满足如下的特点
-
支持逐行插入
-
支持更新
-
低延迟随机读取
-
快速分析和扫描
1.2. Kudu 和其它存储工具的对比
导读
-
OLAP
和OLTP
-
行式存储和列式存储
-
Kudu
和MySQL
的区别 -
Kudu
和HBase
的区别
-
OLAP
和OLTP
- 行式存储和列式存储
- 存储模型
- 性能
- 硬件需求
1.3. Kudu 的设计和结构
导读
-
Kudu
是什么 -
Kudu
的整体设计 -
Kudu
的角色 -
Kudu
的概念
-
Kudu
是什么 - 总体设计
-
Master server
-
Tablet server
-
tablet
的存储结构 -
tablet
的Insert
流程 -
tablet
的Update
流程
2. Kudu 安装和操作
导读
因为 Kudu
经常和 Impala
配合使用, 所以我们也要安装 Impala
, 但是又因为 Impala
强依赖于 CDH
, 所以我们连 CDH
一起安装一下, 做一个完整的 CDH
集群, 搭建一套新的虚拟机
-
创建虚拟机准备初始环境
-
安装
Zookeeper
-
安装
Hadoop
-
安装
MySQL
-
安装
Hive
-
安装
Kudu
-
安装
Impala
2.1. 准备初始环境
导读
之前的环境中已经安装了太多环境, 所以换一个新的虚拟机, 从头开始安装
-
创建虚拟机
-
安装系统
-
复制三台虚拟机
-
配置时间同步服务
-
配置主机名
-
关闭
SELinux
-
关闭防火墙
-
重启
-
配置免密登录
-
安装
JDK
-
Step 1
: 创建虚拟机 -
Step 2
: 安装CentOS 6
-
Step 3
: 集群规划 -
Step 4
: 配置时间同步服务 -
Step 5
: 配置主机名 -
Step 6
: 关闭SELinux
-
Step 7
: 关闭防火墙 -
Step x
: 重启 -
Step 8
: 配置三台节点的免密登录 -
Step 9
: 安装JDK
2.2. 配置 Yum 源
导读
-
下载 CDH 的所有安装包 .
2.. 使用 Java 操作 Kudu
导读