La plate-forme Auto DL loue un serveur (GPU) pour exécuter le didacticiel de code (alchimie), dites adieu au SSH encombrant, le Jpyter fourni avec la plate-forme peut être réalisé avec une page Web

L'interface Jupyter fournie par la plateforme permet aux utilisateurs de contrôler directement le serveur loué sur la page Web.

Pas besoin d'utiliser SSH directement.

Après avoir créé l'instance, cliquez sur Jupyter directement sur l'outil de raccourci, et vous exploitez déjà le serveur que vous avez loué, et la connexion avec votre serveur a été réalisée.

Ouvrez la boîte noire du terminal, et vous utilisez déjà le système Linux du serveur que vous avez loué, et vous pouvez déjà utiliser les ressources du système que vous avez loué en entrant des commandes Linux.

Construction d'environnement :

L'environnement que j'ai mis en place au début est l'environnement par défaut du serveur, qui peut être utilisable ou pas suffisant.

Si cela ne suffit pas, vous pouvez le construire via anconda :

Pour créer, activer et visualiser l'environnement sur le serveur loué par la plateforme AutoDL, vous pouvez suivre les étapes ci-dessous :

  1. Créer et activer l'environnement

Des outils tels que conda ou pip peuvent être utilisés pour créer l'environnement sur le serveur loué par la plate-forme AutoDL. Les étapes spécifiques sont les suivantes :

  • Utilisez conda pour créer un environnement :

conda create--name my_env python=3.7
source activate my_env

Ici, my_env est le nom de l'environnement que vous avez spécifié et python=3.7 est la version de Python que vous avez spécifiée. Activez l'environnement avec la commande source activate my_env.

  • Créez un environnement virtuel avec pip :

python -m venv my_env
source my_env/bin/activate

Ici my_env est le nom d'environnement que vous avez spécifié. Activez l'environnement avec la commande source my_env/bin/activate.

Après avoir activé un environnement, vous pouvez installer et utiliser les bibliothèques et outils Python requis dans cet environnement.

  1. Environnement tectonique

Prenez l'installation du package PyTorch comme exemple

Vous pouvez utiliser des outils tels que conda ou pip pour installer PyTorch. Les étapes spécifiques sont les suivantes :

  • Installez PyTorch en utilisant conda :

conda install pytorch torchvision cudatoolkit=10.1-c pytorch

Le cudatoolkit=10.1 est ici pour la version CUDA 10.1. Si vous utilisez d'autres versions de CUDA, vous devez modifier les paramètres correspondants.

  • Installez PyTorch en utilisant pip :

pip install torch torchvision

Si vous utilisez la version GPU de PyTorch, vous devez installer les outils correspondants tels que CUDA et cuDNN.

  1. Vérifiez l'environnement

Pour afficher l'environnement, utilisez la commande suivante :

  • Pour l'environnement conda :

conda info --envs

Cela répertorie tous les environnements conda installés, ainsi que des informations telles que les chemins et les versions de Python pour chaque environnement.

  • Pour l'environnement virtuel pip :

source my_env/bin/activate
python -m pip list

这里的my_env是你指定的环境名称。使用python -m pip list命令列出该环境中

文件上传:

在Jupyter里有个按钮,点开就能选择本地的文件进行上传。

文件解压:

需要提前在服务器里安装一个解压缩软件

  • 对于Ubuntu/Debian系统:sudo apt-get install p7zip-full

  • 对于CentOS/Fedora系统:sudo yum install p7zip-full

  1. 安装完成后,你就可以在终端中使用7z解压缩软件进行文件的解压缩了。在终端中输入以下命令进行解压缩:要进入文件所属目录才行

7z x filename.7z

这里的filename.7z是你需要解压缩的文件名。

如果安装不了,可能是因为软件源出现了问题:

尝试使用apt-get update命令更新软件包源,并重新运行apt-get install

直接用这行命令解决:

sudo apt-get update

知识拓展:

更换软件源来解决问题。具体步骤如下:

  1. 打开终端,并输入以下命令备份原来的软件源列表:

sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
  1. 输入以下命令打开软件源配置文件:

sudo nano /etc/apt/sources.list
  1. 将原来的软件源地址替换成其他可用的软件源地址。例如,如果你使用的是Ubuntu系统,可以参考Ubuntu官方文档更换软件源。在配置文件中加入新的软件源地址后,可以使用Ctrl+X键保存并退出。

  1. 更新软件包列表,使用以下命令更新软件包列表:

sudo apt-get update

跑模型:

单纯运行代码:

也就是在终端中直接运行。

打开控制台,

进入目标文件夹,

使用 python ***.py命令,

如果要运行的代码文件是python语言名叫***的话。

让代码在离线的情况下运行:

如果是在终端中直接运行的话,那么断开SSH连接时,程序就会停止。

也就是说断网或者关闭目前的Jupyter程序就会终止。

解决方法一:

  1. 启动训练程序,并使用nohup命令和&符号将程序放到后台运行。例如:

nohup python train.py &

这里的train.py是你的训练程序名称,nohub命令可以让程序在后台运行,并忽略所有挂起信号(SIGNUP).

其中&表示将程序放到后台运行,并输出日志到nohunp.out(自动生成)文件中。

  1. 如果需要查看训练日志,可以使用tail命令查看:

tail -f nohub.out

解决方法二:

  1. 使用tmux或screen等工具创建一个会话。

  • 如果你使用的是tmux,可以使用以下命令创建一个会话:

tmux new -s my_session_name
  • 如果你使用的是screen,可以使用以下命令创建一个会话:

screen -S my_session_name

这里的my_session_name是你指定的会话名称。

  1. 在会话中启动训练程序,例如:

python train.py

这样,训练程序将在会话中运行,即使你断开SSH连接或者退出终端,训练程序仍然会在后台继续运行。

  1. 如果你需要重新连接到AutoDL服务器并查看训练日志,可以使用以下命令重新连接到会话:

  • 如果你使用的是tmux,可以使用以下命令重新连接到指定的会话:

tmux attach -t my_session_name
  • 如果你使用的是screen,可以使用以下命令重新连接到指定的会话:

screen -r my_session_name

让程序终止运行:

方法一:

输入

sudo killall python

这个命令可以停止所有python程序的运行。

如果出现command not found错误可能是系统没装这个命令,

可以通过

sudo apt-get install psmisc

来安装

再不行就用:

sudo pkill python

同样可以停止所有python程序的运行

方法二:

  1. 找到正在运行模型的进程ID,使用以下命令查找:

ps aux | grep python

ps aux | grep train.py

这里的python是你使用的深度学习框架的解释器名称,例如TensorFlow和PyTorch都是使用python作为解释器。查找结果会显示正在运行的所有python进程及其进程ID。

如果把python换成train的话,就会列出所有正在运行的train进程。

  1. 使用kill命令停止模型的运行,例如:

kill -9 process_id

这里的process_id是你查找到的模型进程ID。

  1. 确认模型已经停止运行,你可以使用以下命令查看进程是否已经终止:

ps aux | grep python

如果模型的进程已经终止,将不会显示在查找结果中。

需要注意的是,使用kill命令可以强制停止模型的运行,但是这样可能会导致模型在停止前未保存的训练结果丢失。因此,在停止模型之前,建议保存训练结果和模型参数,以便以后继续训练或者使用。

路径问题:

pwd 命令查看当前路径

如果是绝对路径,那么一定是/root开头

Je suppose que tu aimes

Origine blog.csdn.net/weixin_52449030/article/details/129779129
conseillé
Classement