大数据博客目录整理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qichangjian/article/details/88115613

Hadoop
大数据平台简介-CDH,HDP
Hadoop-1-生态圈的组件大体介绍
Hadoop-2-hadoop的HA搭建
hdfs
Hadoop-HDFS基本概念介绍(设计思路,架构,优缺点)
Hadoop-HDFS四大机制和两大核心以及元数据合并
Hadoop-HDFS-读写流程详解
Hadoop-HDFS的shell操作
mapreduce
Hadoop-Mapreduce的框架组成和运行流程
Hadoop-MapReduc入门(代码编写流程,运行流程,并行度决定机制)
Hadoop-MapReduc Shuffle过程
以wordcount为例详细描述mr执行过程
Hadoop-MapReduc 和 Spark的比较
Hadoop-Mapreduce数据倾斜与优化(小文件合并)
Hadoop-Mapreduce参数调优
yarn
Hadoop-Yarn介绍以及作业提交流程
hive
Hadoop-Hive基础整理(架构以及存储)
Hadoop-Hive 内部表/外部表 分区表/分桶表区别
Hadoop-Hive的数据倾斜以及优化策略
Hadoop-Hive基本使用
Hive中自定义UDF,UDTF实例以及三种自定义函数的区别
hbase
Hbase基础(特点,表的结构)
Hbase原理(底层原理,存储架构,寻址策略,读写流程,master和Regionserver的工作机制)
Hbase 简单操作(shell操作和JavaAPI操作)
Hbase的过滤器查询
HBase 和 Hive 的比较
HBase的rowkey的设计原则
Hbase的协处理器(Coprocessor的两种实现observer 和 endpoint,加载卸载方式,二级索引)
flume
Hadoop-Flume整理(架构,组件以及三种形式)
kafka
Kafk的优势以及应用场景
Kafka底层原理架构
kafka三种消费语义与保证精准消费
zookeeper
CAP理论
ZooKeeper文件系统与监听机制
Zookeeper的特点以及典型应用场景
Zookeeper的原理(zk角色与选主过程与数据同步)
azkaban
工作流调度器Azkaban和Oozie的对比
sqoop
Sqoop的介绍(导入导出原理)
Sqoop的常用命令(导入导出命令)
spark

Spark-DataFrame、DataSet、RDD的区别
Spark任务运行过程解析
Spark的Shuffle的四种机制以及参数调优
spark调优之数据倾斜以及解决
spark调优-开发调优
jvm
JVM内存结构,垃圾回收算法,垃圾收集器,jvm参数配置以及常用的分析工具

猜你喜欢

转载自blog.csdn.net/qichangjian/article/details/88115613
今日推荐