30个常见的大数据面试题 --让你的薪资更上一层

30个常见的大数据面试题:

  • 包含spark、scala、storm、hadoop等常见的大数据处理工具;
  • 常用的分布式数据库如hbase、MongoDB、Redis等;
  • 其他常用的java基础、linux相关技术等

1.scala 语言有什么特点,什么是函数式编程?有什么优点

2.scala 伴生对象有什么作用

3.scala 并发编程是怎么弄得,你对 actor 模型怎么理解有何优点

4.Spark如何处理结构化数据,Spark如何处理非结构话数据?

5.Spark性能优化主要有哪些手段?

6.对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里?

7.对于算法是否进行过自主的研究设计?

8.简要描述你了解的一些数据挖掘算法与内容

9.怎么用spark做数据清洗

10.跟我聊聊spark的应用,商场里广告投放,以及黄牛检测

11.spark读取 数据,是几个Partition呢? hdfs几个block 就有几个 Partition?

12.Mogodb和hbase的区别

13.开发中遇到的问题

14.HIVE的优化

15.linux的启动顺序

16.编译好的scala程序,运行时还需要scala环境吗

17.Write a java program to implement Stack in java.

18.Linkedlist和ArrayList的区别

19.hadoop中combiner的作用

20.用mr设计一个分组排重计数算法

21.用MapReduce找出存在公共好友的两个人

22.hdfs存储机制

23.MapReduce原理

24.hadoop运行原理

25.hadoop 的 namenode 宕机,怎么解决

26.Hbase 的特性,以及你怎么去设计 rowkey 和 columnFamily ,怎么去建一个table

27.Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细)

28.说下对hadoop 的一些理解,包括哪些组件

29.详细讲解下你流式实时计算的项目部署以及收集的结果情况

30.实时流式计算框架,几个人,多长时间,细节问题,包括讲flume ,kafka ,storm 的各个的组件组成,你负责那一块,如果需要你搭建你可以完成么?


其他可参考:
https://blog.csdn.net/u011682879/article/details/55804178
https://blog.csdn.net/Y_215/article/details/78219656

猜你喜欢

转载自blog.csdn.net/fct2001140269/article/details/81676107