HDFS读数据分析(四)：用Spark做计算引擎时，是否会根据HDFS数据本地性来分配Task到特定的Datanode

一、前言

1. 版本：
Hadoop 源码版本: Version 2.7.1

二、内容

Spark的DAGScheduler是否会根据RDD的Partition包含的数据本地性，来分配Task到特定的Datanode来处理？代码在哪里？

代码在TaskSetManager.computeValidLocalityLevels函数里，它会赋值TaskSetManager.myLocalityLevels 的成员变量。Spark数据本地化即移动计算而不是移动数据，资源不够时可在该Locality Levels对应的限制时间内重试，超过限制时间（spark.locality.wait　3s 或者spark.locality.wait.process/.node/.rack）后还无法启动则降低Locality Levels再尝试启动。

另贴，https://blog.csdn.net/don_chiang709/article/details/86476525

三、参考

[spark] 数据本地化及延迟调度：https://blog.csdn.net/don_chiang709/article/details/86476525

Spark详细的scheduler调用流程：https://www.cnblogs.com/wzzkaifa/p/7229982.html

HDFS读数据分析(四)：用Spark做计算引擎时，是否会根据HDFS数据本地性来分配Task到特定的Datanode

猜你喜欢