跑满YARN资源-优化方向

背景: YARN资源使用情况

如图从内存使用占比、Pending数量 可以看到 YARN的资源使用情况是很紧张的。

优化方向

  • 1、JOB的执行引擎 MR -> Spark Sql
  • 2、监控YARN资源在队列和整体使用情况:
    • A、将不同类型的JOB 调整到不同队列中。
    • B、调整队列的资源分配比例,抢占比例。
    • C、调整JOB的开始执行时间,错开YARN资源使用高峰执行。
  • 3、JOB优化:通过Dr-Elephant大象医生,找到每日输入量TOP、倾斜任务、执行时间长任务
  • 4、数据同步:通过binlog等或埋点数据处理,小时同步到仓库中,分散凌晨同步压力。
  • 5、仓库ETL优化:通过表和字段的血缘分析,对于表和字段的JOIN、SELECT、GROUP BY次数较多,查看仓库ETL是否存在重复建设的问题
发布了53 篇原创文章 · 获赞 50 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/xw514124202/article/details/103542642