map端和reduce端参数的调优策略

原文https://blog.csdn.net/qq_26442553/article/details/78760338

使用hadoop进行大数据运算,当数据量及其大时,那么对MapReduce性能的调优重要性不言而喻。尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。下面基于官网和工作中的情况总结和相关的调优策略。

     1.关于map端的调优属性   

  2.关于reduce端的调优属性

    通常来说,在reduce端如果把中间数据全部驻留在内存中,那么肯定可以获取最佳性能,但默认情况下,不会发生。因为默认要预留很多内存给reduce函数进行运算。

猜你喜欢

转载自blog.csdn.net/yancychas/article/details/83961591