1.hadoop一般广义和狭义分别指什么
hadoop生态圈,hadoop软件
2.hadoop软件哪三个组成
hdfs yarn mapreduce
3.hdfs伪分布式的进程简写分别是什么?
nn,dn,snn
4.yarn伪分布的进程简写分别是什么?
nm,rm
5.NN节点是干什么的
记录数据节点,维护目录,接受DN的心跳信息
6.DN是干什么的
存储数据
7.简述副本放置策略
就近原则
8.简述 SNN是干什么的
合并editlog和fsimage
9.简述HDFS读写流程
读:客户端发送请求到NN,获取块信息给客户端调用read读取最近的块信息
写:客户端发送请求到NN,NN创建路径,此时数据开始从客户端写入第一个DN,然后由DN复制到下一个,直到副本满足创建要求
10.块128M,三个副本,一个文件260M,多少块,多少实际存储
9个块,实际使用260*3
11.为什么为什么hdfs不适合存储小文件
因为小文件太多会让NN节点压力过大,文件读取速度变慢
12.hadoop fs命令等价什么命令
hdfs dfs
13.hdfs命令的上传下载
put get
14.如果让你们查看hdfs dfs命令帮助,会不会
hdfs dfs --help
15.谈谈你们对shuffle的理解
洗牌,将所有key值相同的放在一起
16.MapReduce分为哪两个阶段
map和reduce
17.简述mr job提交yarn的工作流程
申请资源,提交map作业,进行reduse作业,
18.hdfsyarn默认端口web的,分别多少
50070 8088
19.假如让你们去官网找配置
hadoop.apach.org官网的文档查找配置文件说明
20.什么叫容器container
emmm简单说就是动态资源分配