版权声明: https://blog.csdn.net/u014384314/article/details/80452644
一.计算引擎 ----mapreduce
1.map操作
2.reduce操作
3.spark transformation操作与action操作
4.mapreduce与spark的优虐
二.分布式存储 ----hdfs
1.文件备份(3份)
2.数据如何在各个节点均匀分布
3.如何映射到hive表
4.块大小,为什么要设置这么大的块?
5.hbase如何将data存储到hdfs
6.导入数据到hdfs的几种方式(sqoop,kettel,spark)
7.导出数据到文件、关系型数据库、excel的方式
三 .Hadoop生态圈概念
1.kafka
2.zookeeper
3.flume
4.hive
5.hbase
6.oozie
7.hue
8.impala
9.提交模式:YARN、spark standalone、local
四 .实时处理框架spark streaming与storm+kafka +hbase+web展示+tablealue展示
本篇主要介绍第一、第二章,后面两章只做简单概念介绍,之后会分篇详细讨论每一个模块。