hadoop面试题目分享

仅限于工作年限1-3年

一、HIVE岗

1.order by,distribute by，sortby的区别点击打开链接

2.内部表、外部表的区别及使用场景点击打开链接

3.讲一下hadoop生态圈的组件，说一下你对hadoop的认识程度（需要理解并背下来）点击打开链接

4.join需要注意的地方(hive查询中需要注意的地方及优化方法) 点击打开链接

5.视图和表的区别点击打开链接

zhangyue：

1.说一下java虚拟机点击打开链接

2.Hbase、Impala、Hive分别是用来干什么的，其中impala和hive的区别又是什么，优缺点各是什么点击打开链接

3.你有用到python3.x的哪些新特性点击打开链接

4.hive优化操作有哪些，点击打开链接动态分区怎么添加，怎样修改表的列名

5.聊一下你平时用到的模型是怎么建立的，函数都有哪些参数，怎样优化的，是怎样得出的结果的（口述模型设计流程）

6.linux查看占用端口情况点击打开链接

7.怎样改变文件夹所属的用户点击打开链接

8.hadoop查看文件夹大小点击打开链接

9.讲一下IO 点击打开链接

10.为什么要用python，不用shell写脚本点击打开链接

11.场景：abc三个维度，用户id相同，怎么去重点击打开链接

yainfo：

1.机架感知点击打开链接

2.hive都用到哪些函数点击打开链接

3.模型设计的整体流程，有没有具体的例子，为什么要用这种模型，有什么优点（口述模型设计流程）

4.hive和Mysql怎么关联的，Sqoop怎么用点击打开链接（开发）点击打开链接（入门）

5.索引一般怎么用，什么场景下使用 (hive)点击打开链接 (mysql) 点击打开链接

6.impala跟hive是怎么关联到一起的，怎么用点击打开链接

renrenche

1.正则表达式中标点符号用什么表示点击打开链接

2.Datanode和namenode的联系点击打开链接

3.impala的特点点击打开链接

4.hive中行列转换点击打开链接

5.java中linklist和ArrayList的区别点击打开链接

6.shell中怎样验证一条命令执行成功点击打开链接

7.写一个hive中的udf 点击打开链接

8.mr的运行机制点击打开链接

9.主键索引，普通索引，怎么看一个索引是否成功点击打开链接

10.hive怎样按照表点符号切分字符串点击打开链接

11.在ETL中最重要的是什么（数据的准确性）

jinshanyun

1.datanode和namenode是怎样的机制点击打开链接

2.java中的单例点击打开链接

3.storm的ack机制怎样保证数据不会丢失点击打开链接

4.查看进程，端口，内存点击打开链接

5.awk怎么用点击打开链接

6.两个无序的文件，怎样实现排序并高效

二、数据仓库岗

1.说一下数据仓库你们怎么建设的，都有哪些数据仓库

2.你们的事实表和维表都有哪些，是怎么个流程

3.spark_streaming熟悉吗，来说一下你平时都怎么用的

三、ETL岗

58daojia

1.画一下你们ETL的流程

2.spark的适用场景，spark_streaming使用案例

四、大数据开发岗

相同的问题：

1.你跳槽的原因是什么

2.你的职业发展规划是什么

3.你的期望薪资是多少（一般前面不顺畅的，也就不会到这个问题了）

4.你写过多少行代码

5.你在工作中遇到最大的难题是什么，怎样解决的

6.你的缺点是什么，你的优点是什么

7.说一下让你成长最多的项目是什么

hadoop面试题目分享

猜你喜欢