HQ

1、sparkStreaming批次你们是设置多少。10s的话,假设我10s的数据,生成几个rdd,这个rdd有几个分区。

2、kafka topic的patition你们设置多少。

3、sparkStreaming开多少线程拉数据。正常来说并不是所有线程都要去拉数据的。

4、reidis在代码中是怎么连接数据库的,连接池连接吗。真实意图应该是说你项目中有没有用foreach patition进行数据库的连接。

5、foreach算子和foreach patition的区别。

6、数据倾斜有遇到吗,双重key聚合,是给每一个key都加随机前缀吗?

7、map和flatmap的区别,是一对多还是一对一。flatmap的是1到多还是0到多开始。

8、groupbykey和reducebykey的区别,groupbykey和reducebykey的执行结果都一样吗。

9、a left join b on a.id=b.id and b.age=30;  这个最后查询的记录数是怎么计算的。

猜你喜欢

转载自www.cnblogs.com/guoyu1/p/12294143.html
HQ