1.谈谈如何理解shuffle
洗牌,将相同key值集合在一起
2.简述 mr提交到yarn的工作流程
client向MR提交作业,MR进行处理,分配资源
3.yarn哪两个进程
resourcemanager nodemanager
4.yarn的资源调优参数,是否会配置?
配置文件有hadoop-env.sh,yarn-site.sh等
5.谈谈你对jps命令 pid生成在哪个目录
jps显示当前所有Java进程pid的命令,在/tmp/hsperfdata_{username}/下
6.谈谈你们对pid的理解
/tmp目录下的pid文件存储各个进程的pid号,如果非正常删除不会对进程有影响但是会造成一定的进程混乱,所以最好不要搞事情
7.hdfs读流程是output吗
写,input
8.一个文件160M,64M的块大小,三个副本,请问块多少,实际存储多少
9个块,160*3M
9.pid文件人为删除,会影响服务正常运行吗?那么会影响什么?
不会影响服务正常运行,会影响重启和关闭
10.hdfs dfs等价于什么命令
hadoop fs
11.默认的hdfs,yarnweb的端口号多少
50070 8088
12.假如让你们修改默认的端口号,你们想想会不会去官网网站的默认配置文件找呢???
去官网找文档,写的清清楚楚明明白白,唯一缺点是英文-.-(英语渣一枚)
13.hdfs和yarn进程的内存大小 在哪个文件配置
4G和3G,在hadoop-env.sh和yarn-env.sh配置
14.谈谈什么是数据本地化
NN和DN同一节点上
15.假如NN节点进入安全模式,你们应该觉得怎么做
hdfsadmin leave,如果不成功去看日志
16.副本放置策略,假如提交的DN节点,那么第一个副本存哪里
提交的DN节点上
17.hadoop家目录里,怎样找到example jar包
find ./ -name '*example*'
18.你们觉得 命令帮助怎么看?
先看usage,再看参数