hadoop面试题目分享

仅限于工作年限1-3年

 一、HIVE岗

1.order by,distribute by,sortby的区别 点击打开链接

2.内部表、外部表的区别及使用场景 点击打开链接

3.讲一下hadoop生态圈的组件,说一下你对hadoop的认识程度(需要理解并背下来) 点击打开链接

4.join需要注意的地方(hive查询中需要注意的地方及优化方法)  点击打开链接

5.视图和表的区别 点击打开链接

zhangyue

1.说一下java虚拟机 点击打开链接

2.Hbase、Impala、Hive分别是用来干什么的,其中impala和hive的区别又是什么,优缺点各是什么  点击打开链接

3.你有用到python3.x的哪些新特性 点击打开链接

4.hive优化操作有哪些,点击打开链接  动态分区怎么添加,怎样修改表的列名  

5.聊一下你平时用到的模型是怎么建立的,函数都有哪些参数,怎样优化的,是怎样得出的结果的 (口述模型设计流程)

6.linux查看占用端口情况 点击打开链接

7.怎样改变文件夹所属的用户点击打开链接

8.hadoop查看文件夹大小点击打开链接

9.讲一下IO 点击打开链接

10.为什么要用python,不用shell写脚本点击打开链接

11.场景:abc三个维度,用户id相同,怎么去重  点击打开链接

yainfo:

1.机架感知 点击打开链接

2.hive都用到哪些函数 点击打开链接

3.模型设计的整体流程,有没有具体的例子,为什么要用这种模型,有什么优点 (口述模型设计流程)

4.hive和Mysql怎么关联的 ,Sqoop怎么用 点击打开链接(开发)点击打开链接(入门)

5.索引一般怎么用,什么场景下使用 (hive)点击打开链接 (mysql) 点击打开链接

6.impala跟hive是怎么关联到一起的,怎么用 点击打开链接

renrenche

1.正则表达式中标点符号用什么表示 点击打开链接

2.Datanode和namenode的联系 点击打开链接

3.impala的特点 点击打开链接

4.hive中行列转换  点击打开链接

5.java中linklist和ArrayList的区别 点击打开链接

6.shell中怎样验证一条命令执行成功 点击打开链接

7.写一个hive中的udf 点击打开链接

8.mr的运行机制 点击打开链接

9.主键索引,普通索引,怎么看一个索引是否成功 点击打开链接

10.hive怎样按照表点符号切分字符串 点击打开链接

11.在ETL中最重要的是什么(数据的准确性)

jinshanyun

1.datanode和namenode是怎样的机制 点击打开链接

2.java中的单例 点击打开链接

3.storm的ack机制怎样保证数据不会丢失 点击打开链接

4.查看进程,端口,内存 点击打开链接

5.awk怎么用 点击打开链接

6.两个无序的文件,怎样实现排序并高效 

二、数据仓库岗

1.说一下数据仓库你们怎么建设的,都有哪些数据仓库

2.你们的事实表和维表都有哪些,是怎么个流程

3.spark_streaming熟悉吗,来说一下你平时都怎么用的

三、ETL岗

58daojia

1.画一下你们ETL的流程

2.spark的适用场景,spark_streaming使用案例

四、大数据开发岗


相同的问题:

1.你跳槽的原因是什么

2.你的职业发展规划是什么

3.你的期望薪资是多少(一般前面不顺畅的,也就不会到这个问题了)

4.你写过多少行代码

5.你在工作中遇到最大的难题是什么,怎样解决的

6.你的缺点是什么,你的优点是什么

7.说一下让你成长最多的项目是什么

猜你喜欢

转载自blog.csdn.net/sunwukong_hadoop/article/details/80620203