SparkドライバーとApplicationMasterのプロセスコア番号の設定に関する私の意見

構成

構成 デフォルト値 意味
spark.driver.cores 1 クラスターモードでのみ、ドライバープロセスに使用するコアの数。クラスターモードでのドライバープロセスのコアの数。am
とドライバーは実際には変更されたモードで統合されているため、amのコアの数でもあります。
spark.yarn.am.cores 1 クライアントモードでYARNアプリケーションマスターに使用するコアの数クラスターモードでは、spark.driver.cores代わりに使用します。
ヤーンクライアントモードでは、am、driver、amのコア数がこのモードで分離されているため、このような数のドライバーはありません。現時点でのコア概念

ソースコード

 private val amCores = if (isClusterMode) {
    sparkConf.get(DRIVER_CORES)
  } else {
    sparkConf.get(AM_CORES)
  }

詳細については、yarn.Client.scala#L87を参照してください。これは、パラメーターを読み取り、ApplicationMasterの対応するコア番号を設定するために使用されます。

val capability = Records.newRecord(classOf[Resource])
    capability.setMemory(amMemory + amMemoryOverhead)
    capability.setVirtualCores(amCores)

    sparkConf.get(AM_NODE_LABEL_EXPRESSION) match {
      case Some(expr) =>
        try {
          val amRequest = Records.newRecord(classOf[ResourceRequest])
          amRequest.setResourceName(ResourceRequest.ANY)
          amRequest.setPriority(Priority.newInstance(0))
          amRequest.setCapability(capability)
...

詳細については、yarn.Client.scala#L251を参照してください。ここでは、amリクエストメッセージにカプセル化されてYarnに送信されます。一連の操作の後、最終的にNodeManagerに渡され、JVMであるApplicationMasterコンテナが生成されます。処理する。

分析

JVMを再生すると、Xmx、Xssなどのさまざまなメモリパラメータを設定でき、-XX:ParallelGCThreadsなどのGCスレッドの数も設定できることがわかっています。直接的なものはないようです。 JVMが使用するスレッドパラメータの数の設定。を参照してください。

 

 java -XX:+PrintFlagsInitial | grep "Thread" | grep -v "bool"
     intx CompilerThreadPriority                    = -1              {product}
     intx CompilerThreadStackSize                   = 0               {pd product}
    uintx ConcGCThreads                             = 0               {product}
     intx DefaultThreadPriority                     = -1              {product}
    uintx G1ConcRefinementThreads                   = 0               {product}
    uintx HeapSizePerGCThread                       = 87241520        {product}
    uintx NewSizeThreadIncrease                     = 5320            {pd product}
    uintx ParallelGCThreads                         = 0               {product}
     intx ThreadPriorityPolicy                      = 0               {product}
    uintx ThreadSafetyMargin                        = 52428800        {product}
     intx ThreadStackSize                           = 1024            {pd product}
     intx VMThreadPriority                          = -1              {product}
     intx VMThreadStackSize                         = 1024            {pd product}

では、この監査番号を設定することの用途は何ですか?ApplicationMasterの並行性を改善しますか?しかし、どのように?

比較

比較すると、spark.executor.coresはるかに理解しやすいです。このパラメーターは、エグゼキューターコアの数を設定するために使用されます。これは単純な値です。たとえば、4に設定すると、ドライバーは現在のアイドルコアの数に従ってタスクを割り当てます。コアの数は-1で、タスクが完了したことを示すメッセージは+1です。これは、ドライバーがタスクを自由に割り当てることができるため、これで完了です。

しかし、ApplicationMasterのソースコードを見ると、そのような制御された操作はありません。

間違い

 

18/02/04 06:27:52 ERROR yarn.ApplicationMaster: Exception from Reporter thread.
org.apache.hadoop.yarn.exceptions.ApplicationAttemptNotFoundException: Application attempt appattempt_1515478669260_917050_000001 doesn't exist in ApplicationMasterService cache.
    at org.apache.hadoop.yarn.server.resourcemanager.ApplicationMasterService.allocate(ApplicationMasterService.java:439)
    at org.apache.hadoop.yarn.api.impl.pb.service.ApplicationMasterProtocolPBServiceImpl.allocate(ApplicationMasterProtocolPBServiceImpl.java:60)
    at org.apache.hadoop.yarn.proto.ApplicationMasterProtocol$ApplicationMasterProtocolService$2.callBlockingMethod(ApplicationMasterProtocol.java:99)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2045)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
    at org.apache.hadoop.yarn.ipc.RPCUtil.instantiateException(RPCUtil.java:53)
    at org.apache.hadoop.yarn.ipc.RPCUtil.unwrapAndThrowException(RPCUtil.java:101)
    at org.apache.hadoop.yarn.api.impl.pb.client.ApplicationMasterProtocolPBClientImpl.allocate(ApplicationMasterProtocolPBClientImpl.java:79)
    at sun.reflect.GeneratedMethodAccessor24.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:191)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)
    at com.sun.proxy.$Proxy24.allocate(Unknown Source)
    at org.apache.hadoop.yarn.client.api.impl.AMRMClientImpl.allocate(AMRMClientImpl.java:277)
    at org.apache.spark.deploy.yarn.YarnAllocator.allocateResources(YarnAllocator.scala:260)
    at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$1.run(ApplicationMaster.scala:458)
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.ApplicationAttemptNotFoundException): Application attempt appattempt_1515478669260_917050_000001 doesn't exist in ApplicationMasterService cache.
    at org.apache.hadoop.yarn.server.resourcemanager.ApplicationMasterService.allocate(ApplicationMasterService.java:439)
    at org.apache.hadoop.yarn.api.impl.pb.service.ApplicationMasterProtocolPBServiceImpl.allocate(ApplicationMasterProtocolPBServiceImpl.java:60)
    at org.apache.hadoop.yarn.proto.ApplicationMasterProtocol$ApplicationMasterProtocolService$2.callBlockingMethod(ApplicationMasterProtocol.java:99)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2045)
    at org.apache.hadoop.ipc.Client.call(Client.java:1475)
    at org.apache.hadoop.ipc.Client.call(Client.java:1412)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:229)
    at com.sun.proxy.$Proxy23.allocate(Unknown Source)
    at org.apache.hadoop.yarn.api.impl.pb.client.ApplicationMasterProtocolPBClientImpl.allocate(ApplicationMasterProtocolPBClientImpl.java:77)
    ... 9 more
18/02/04 06:27:52 INFO yarn.ApplicationMaster: Final app status: FAILED, exitCode: 12, (reason: Application attempt appattempt_1515478669260_917050_000001 doesn't exist in ApplicationMasterService cache.
    at org.apache.hadoop.yarn.server.resourcemanager.ApplicationMasterService.allocate(ApplicationMasterService.java:439)
    at org.apache.hadoop.yarn.api.impl.pb.service.ApplicationMasterProtocolPBServiceImpl.allocate(ApplicationMasterProtocolPBServiceImpl.java:60)
    at org.apache.hadoop.yarn.proto.ApplicationMasterProtocol$ApplicationMasterProtocolService$2.callBlockingMethod(ApplicationMasterProtocol.java:99)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2045)
)
18/02/04 06:27:52 INFO streaming.StreamingContext: Invoking stop(stopGracefully=true) from shutdown hook

エラーは、ApplicationMasterがクライアントとしてResourceManagerにコンテナーを割り当てるように要求すると、それがResourceManagerによって認識されなくなり、記憶喪失になっていることを検出するという結果になります。ApplicationMasterがResourceManagerから自身の登録を解除しなかった場合は、連絡がないまま長すぎて関係が切断された可能性があります。

ApplicationMasterのソースコードを見てください

 

private def launchReporterThread(): Thread = {
    // The number of failures in a row until Reporter thread give up
    val reporterMaxFailures = sparkConf.get(MAX_REPORTER_THREAD_FAILURES)

    val t = new Thread {
      override def run() {
        var failureCount = 0
        while (!finished) {
          try {
            if (allocator.getNumExecutorsFailed >= maxNumExecutorFailures) {
              finish(FinalApplicationStatus.FAILED,
                ApplicationMaster.EXIT_MAX_EXECUTOR_FAILURES,
                s"Max number of executor failures ($maxNumExecutorFailures) reached")
            } else {
              logDebug("Sending progress")
              allocator.allocateResources()
            }
            failureCount = 0
          } catch {
            case i: InterruptedException =>
            case e: Throwable =>
              failureCount += 1
              // this exception was introduced in hadoop 2.4 and this code would not compile
              // with earlier versions if we refer it directly.
              if ("org.apache.hadoop.yarn.exceptions.ApplicationAttemptNotFoundException" ==
                e.getClass().getName()) {
                logError("Exception from Reporter thread.", e)
                finish(FinalApplicationStatus.FAILED, ApplicationMaster.EXIT_REPORTER_FAILURE,
                  e.getMessage)
              } else if (!NonFatal(e) || failureCount >= reporterMaxFailures) {
                finish(FinalApplicationStatus.FAILED,
                  ApplicationMaster.EXIT_REPORTER_FAILURE, "Exception was thrown " +
                    s"$failureCount time(s) from Reporter thread.")
              } else {
                logWarning(s"Reporter thread fails $failureCount time(s) in a row.", e)
              }
          }

.....

コードは非常に単純です。ApplicationMasterはここでスレッドを開始します。例外がない場合は定期的に実行されます(spark.yarn.scheduler.heartbeat.interval-ms 3秒)allocator.allocateResources()。実行者がハングダウンして十分でない場合申請した数、いくつかのアプリケーションを作成し、不足がない場合はこのコードを実行し続けます。これは、ApplicationMasterとResourceManagerの間のハートビートに相当すると推定されます。

これについて言えば、2つのパラメーターは少し目を引くものですが、Javaのスレッド数はCPUのスレッド数と直接同じではありませんが、基本的にCPUタイムスライスの競合に関与しています。ヤーンレベルでのコア数の理解は比較的簡単です。最初にCPUの数*単一のCPUの論理コアの数を取得して、特定のマシンのスレッドの総数を取得し、次にNodeManagerが割り当てを完了します。 ApplicationMasterとSparkExecutorの場合、割り当てられている場合、このコンテナのコア数が差し引かれます。単一のコンテナのコア数が多いほど、参加しているコンテナの総数は少なくなります。 CPUの競争で。クラスターモードの場合、ドライバーとApplicationMasterは別々のプロセスに存在します。スレッドはクライアントモードよりもビジーです。GCと同様の問題が発生した場合、私たちとResourceManagerハートビートスレッドが実行機会を取得できず、考える時間。連絡が途絶える。したがってspark.driver.cores設定の重要性が生じます。この値を増やすと、コンピューターノード上の他のコンテナーの割り当てを減らすことができ、物理リソースがそれほどタイトにならず、このシナリオが発生する可能性が低くなります。それに応じて。

総括する

spark.driver.cores実稼働環境では、妥当な範囲内でより大きなサイズに調整でき、他の環境で実行することによって処理能力を向上させるのに役立つはずです。そうでなければ、私はこれらの2つのパラメーターの使用を考えることができません。

追記

私は次のグループのyarnの同僚に相談し、cgroupが有効になった後、これらのパラメーターの役割がより明確で明確になるはずだと述べました。

 

おすすめ

転載: blog.csdn.net/qq_32445015/article/details/112348024