Flink面试题梳理

公众号:小晨说数据

微信:weixin605405145

基础
1.Flink计算单位是什么?
2.Flink时间类型有那些,他们有什么区别?
3.Flink窗口类型有哪些,你们目前用的什么窗口?
4.Flink的状态你们有没有用过,用的什么类型的状态?
5.Flink如何处理延迟数据?
6.Flink中managed state和raw state区别?
7.Flink的keystate有什么不足,优点是什么,缺点是什么?
8.Flink的watermark有哪几种?
9.Flink自定义sink和source有没有写过,遇到了什么问题?
10.Flink自定udf函数有没有写过,解决的什么问题?

项目
1.你们项目中有没有遇到过背压?如何解决的?
2.你们项目中有没有遇到数据倾斜?如何解决的?
3.你们项目中有没有遇到状态异常需要人工修改?如何解决的?
4.你们项目中有没有遇到离线数据历史数据需要迁移到实时流中,比如历史视频的播放量,想要衔接到实时流中进行累加?如何解决的?
5.你们项目中有没有遇到手动维护kafka的offset,如何获取kafka的offset?
6.你们项目中有没有遇到checkpoint的oom现象,rocksDB有点和不足,checkpoint和savepoint的区别是什么?
7.你们项目中有没有遇到异步io读写的场景?
8.你们项目中有没有使用过广播的场景?
9.你们项目中有没有使用实时去重复,实时topN的场景,如何做的?

面试
1.梳理项目背景,你做的什么项目,数据量多少,这个项目应用场景。
2.每天多少条数据,数据量多大容量(多少TB)每秒钟处理多少条数据,你在项目中遇到了哪些问题,你是如何解决的?
3.项目中你用到了什么技术,这个技术有什么优点和不足,你要思考,为什么选这个技术,其他技术为什么可以?这个你要思考。
4.你的任务什么时间调度,有没有相应的监控,数据异常了有没有报警
5.思考好项目组分工,如何跟前端交互的,数据来源+加工+呈现,这个流程梳理清楚

发布了40 篇原创文章 · 获赞 3 · 访问量 9065

猜你喜欢

转载自blog.csdn.net/huzechen/article/details/102827576