大数据开发工程师基础面试题

Hadoop
1.组成
2.Hdfs 文件上传
3.Hdfs 文件下载
4.MR 流程
5.MR 中combine
6.Yarn的运行流程
7.Yarn 的资源调度类型
8.Zookeeper 功能
9.Zookeeper 的主从选取机制
10.Mr 程序wordcount
11.Mr中的缓存 chickpoint

Spark
2.Spark 资源调度过程
3.Spark 运行流程
4.Shuffle
5.Spark 常用算子
6.缓存catch和chickpoint
7.Spark 程序 wordcount
8.Spark 调优
9.Spark 和 MR 的区别

Flume
1.事务
2.Source
3.Channal
4.Sink
5.项目中的配置

Linux
1.常用命令
2.脚本的编写

Kafka
1.组成
2.保证数据不丢数据
3.精确数据只消费一次
4.Kafka 快的原因

Hive
1.架构
2.Hivesql底层转换 MR 过程
3.内外部表
4.建表方式
5.导入数据
6.导出数据
7.分区
8.分桶
9.自定义函数UDF ,UDAF,UDTF
10.Order by , sort by , distribute by , cluster by区别
11.Rank() 和dense_rank() 的区别
12.字符串拼接 concat() concat_ws()
13.时间戳 日期转换
14.切分字符串substr() 和 split()[]
15.Sql调优
16.数据倾斜及解决方案
17.参数调优
18.压缩格式
19.执行计划explain
20.数据倾斜定位sql位置
21.手写sql topN
22.手写sql 累加
23.手写sql 连续指标
24.手写sql 行列转换

算法
1.冒泡排序
2.快速排序
3.归并排序
4.二分查找

Redis
1.概念
2.数据类型

Scqoop
1.空值问题
2.全量增量导入及增量合并

项目
1.数据预处理做了什么
2.Idmapping
3.数仓建模流程
4.数仓分层的意义
5.拉链表
6.数据量
7.数据的生命周期
8.数据治理
9.集群
10.小组人数及分工
11.项目亮点
12.遇到的问题及解决
13.日志数据流量域的一个指标整个处理过程
14.业务数据一个指标整个处理过程
15.定时任务出现问题 自动报警 发送邮件

猜你喜欢

转载自blog.csdn.net/weixin_47699191/article/details/115278852