[NNI] Verwenden Sie NNI auf dem Cluster, um die Lösung des Anforderungsfehlerberichts anzuzeigen

[NNI] Verwenden Sie NNI auf dem Cluster, um die Lösung des Anforderungsfehlerberichts anzuzeigen

Bei Verwendung von NNI auf dem Slurm-Cluster wird der Fehler immer wie folgt gemeldet:

requests.exceptions.ConnectionError: HTTPConnectionPool(host='localhost', port=17513): Max retries exceeded with url: /api/v1/nni/check-status (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x2b352d9c6f28>: Failed to establish a new connection: [Errno 111] Connection refused',))

Nach der Suche fand ich die Lösung im offiziellen GitHub-Problem Failed to Establishing a New Connection · Issue #3496 · microsoft/nni (github.com)

Einfach gesagt, die Anzahl der Wiederholungen ist zu gering, und das Experiment kann möglicherweise nicht in einer Clusterumgebung gestartet werden, also ändern wir einfach den Quellcode wie folgt:

  • Suchen Sie die Launcher-Datei im installierten nni-Verzeichnis: nni/nni/experiment/launcher.py
  • _check_rest_server(port, url_prefix=url_prefix)Ändern Sie Zeile 126 in_check_rest_server(port, retry=30, url_prefix=url_prefix)
  • Es wird ungefähr 30 Wiederholungen versuchen. Nach dem Testen, im Allgemeinen nach 10 Wiederholungen, wird das Experiment gestartet.

Darüber hinaus sollte der Beamte dieses Problem in Version 3.0 lösen, Sie können versuchen, nni auf eine höhere Version zu aktualisieren.

Guess you like

Origin blog.csdn.net/qq_45551930/article/details/130226862