11.27号面试总结

1、在ES数据库中做查询,如果字段是中文的,怎么分词,怎么查询,以及怎么匹配?

2、我们一般做数据处理,数据来源于kafka,sparkstreaming去消费kafka中的数据,那如果消费的是文件,或者数据库中的数据,这种情况怎么消费,怎么处理?能否举个例子,数据量多大,花了多长时间?

3、spark优化只有sparkstreaming有优化,sparkSQL没有优化。

4、面试被问到做数据分析的时候,为什么不同hive做分析?

5、hive,传统数据库,HBASE,Redis这几个的区别是什么?

6、讲用MR做单词统计,然后取topN,底层怎么一步步实现的?

给的情景模式是公司服务器有10个节点,一共可同时容纳的数据量是30G,给你400G数据,让你做单词统计,然后取TopN.每一步是怎么做的?

7、spark的四种模式:yarn,local,standalone和metosos四者的区别是什么?

8、画图说明spark on yarn模式资源调度和任务调度的原理。

9、将sparkMllib中最熟悉的算法,就讲几个。

10、Redis有一个血奔问题,你是怎么解决的?

11、现在主流的有Apache,CDH,还有哪些,知不知道三驾马车?

12、处理数据倾斜,怎么解决?spark中给字段添加前缀。

这个是我今天面试被问到的问题。

三驾马车是 clouderal manager,cloudera CDH ,apache

三驾马车之永垂不朽的GFS
但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable。如果我们拉长时间轴到20年为一个周期来看呢,这三驾马车到今天的影响力其实已然不同。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/84575454