每天10分钟——10.25

1.hadoop一般广义和狭义分别指什么

hadoop生态圈,hadoop软件 

2.hadoop软件哪三个组成

hdfs yarn mapreduce 

3.hdfs伪分布式的进程简写分别是什么?

nn,dn,snn 

4.yarn伪分布的进程简写分别是什么?

nm,rm

5.NN节点是干什么的

记录数据节点,维护目录,接受DN的心跳信息 

6.DN是干什么的

存储数据

7.简述副本放置策略

就近原则

8.简述 SNN是干什么的

合并editlog和fsimage 

9.简述HDFS读写流程

读:客户端发送请求到NN,获取块信息给客户端调用read读取最近的块信息
写:客户端发送请求到NN,NN创建路径,此时数据开始从客户端写入第一个DN,然后由DN复制到下一个,直到副本满足创建要求

10.块128M,三个副本,一个文件260M,多少块,多少实际存储

9个块,实际使用260*3 

11.为什么为什么hdfs不适合存储小文件

因为小文件太多会让NN节点压力过大,文件读取速度变慢 

12.hadoop fs命令等价什么命令

hdfs dfs 

13.hdfs命令的上传下载

put	get 

14.如果让你们查看hdfs dfs命令帮助,会不会

hdfs dfs --help 

15.谈谈你们对shuffle的理解

洗牌,将所有key值相同的放在一起 

16.MapReduce分为哪两个阶段

map和reduce 

17.简述mr job提交yarn的工作流程

申请资源,提交map作业,进行reduse作业,

18.hdfsyarn默认端口web的,分别多少

50070 8088

19.假如让你们去官网找配置

hadoop.apach.org官网的文档查找配置文件说明

20.什么叫容器container

emmm简单说就是动态资源分配

猜你喜欢

转载自blog.csdn.net/weixin_43267534/article/details/83374306