11.27号面试总结

1、在ES数据库中做查询，如果字段是中文的，怎么分词，怎么查询，以及怎么匹配？

2、我们一般做数据处理，数据来源于kafka，sparkstreaming去消费kafka中的数据，那如果消费的是文件，或者数据库中的数据，这种情况怎么消费，怎么处理？能否举个例子，数据量多大，花了多长时间？

3、spark优化只有sparkstreaming有优化，sparkSQL没有优化。

4、面试被问到做数据分析的时候，为什么不同hive做分析？

5、hive，传统数据库，HBASE，Redis这几个的区别是什么？

6、讲用MR做单词统计，然后取topN，底层怎么一步步实现的？

给的情景模式是公司服务器有10个节点，一共可同时容纳的数据量是30G，给你400G数据，让你做单词统计，然后取TopN.每一步是怎么做的？

7、spark的四种模式：yarn，local，standalone和metosos四者的区别是什么？

8、画图说明spark on yarn模式资源调度和任务调度的原理。

9、将sparkMllib中最熟悉的算法，就讲几个。

10、Redis有一个血奔问题，你是怎么解决的？

11、现在主流的有Apache，CDH，还有哪些，知不知道三驾马车？

12、处理数据倾斜，怎么解决？spark中给字段添加前缀。

这个是我今天面试被问到的问题。

三驾马车是 clouderal manager,cloudera CDH ,apache

三驾马车之永垂不朽的GFS
但凡是要开始讲大数据的，都绕不开最初的Google三驾马车：Google File System（GFS）， MapReduce，BigTable。如果我们拉长时间轴到20年为一个周期来看呢，这三驾马车到今天的影响力其实已然不同。