某东面试问题总结

1。mapreduce 中map内存溢出如何解决

找到hive-env.sh文件

打开后配置HADOOP_OPTS

加上

  1. if [ "$SERVICE" = "hiveserver2" ]; then
  2. echo $HADOOP_OPTS
  3. export HADOOP_OPTS="$HADOOP_OPTS -XX:PermSize=512M -XX:MaxPermSize=1024M"
  4. echo $HADOOP_OPTS
  5. fi

保存

再启动后内存就已经改过来了

当然,其他java的内存参数也能自己配

2.reduce 二次排序解决方案

3.数据倾斜解决方案

4.如何在分布式系统中保持业务主键同步

5.多个有序链表如何组合链表排序

通过归并排序

6.海量数据查重,内存没法装下 

解决思路?

待补充,有知道的可以留言

猜你喜欢

转载自www.cnblogs.com/Impulse/p/9461182.html