Hdoop 概念与理解

版权声明: https://blog.csdn.net/u014384314/article/details/80452644

一.计算引擎 ----mapreduce

1.map操作

2.reduce操作

3.spark  transformation操作与action操作

4.mapreduce与spark的优虐

二.分布式存储 ----hdfs

1.文件备份(3份)

2.数据如何在各个节点均匀分布

3.如何映射到hive表

4.块大小,为什么要设置这么大的块?

5.hbase如何将data存储到hdfs

6.导入数据到hdfs的几种方式(sqoop,kettel,spark)

7.导出数据到文件、关系型数据库、excel的方式

三 .Hadoop生态圈概念

1.kafka

2.zookeeper

3.flume

4.hive

5.hbase

6.oozie

7.hue  

8.impala

9.提交模式:YARN、spark standalone、local

四 .实时处理框架spark streaming与storm+kafka +hbase+web展示+tablealue展示

本篇主要介绍第一、第二章,后面两章只做简单概念介绍,之后会分篇详细讨论每一个模块。


猜你喜欢

转载自blog.csdn.net/u014384314/article/details/80452644