プラットフォームが提供する Jupyter インターフェイスを使用すると、ユーザーは Web ページ上でレンタル サーバーを直接制御できます。
SSHを直接操作する必要はありません。
インスタンス作成後、ショートカットツール上でJupyterを直接クリックすると、既にレンタルサーバーを運用しており、サーバーとの接続が実現しています。
ターミナルのブラックボックスを開くと、すでにレンタルしたサーバーの Linux システムが使用されており、Linux コマンドを入力することで、すでにレンタルしたシステム内のリソースを使用できるようになります。
環境構築:
最初に設定した環境はサーバーのデフォルト環境なので、使える場合もあれば十分でない場合もあります。
十分でない場合は、anconda を通じてビルドできます。
AutoDL プラットフォームによってレンタルされたサーバー上で環境を構築、アクティブ化、表示するには、次の手順に従います。
環境を作成してアクティブ化する
AutoDL プラットフォームがレンタルするサーバー上に conda や pip などのツールを使用して環境を構築することができます。具体的な手順は次のとおりです。
conda を使用して環境を作成します。
conda create--name my_env python=3.7
source activate my_env
ここで、my_env は指定した環境名、python=3.7 は指定した Python バージョンです。source activate my_env コマンドを使用して環境をアクティブ化します。
pip を使用して仮想環境を作成します。
python -m venv my_env
source my_env/bin/activate
ここで、my_env は指定した環境名です。source my_env/bin/activate コマンドを使用して環境をアクティブ化します。
環境をアクティブ化した後、その環境に必要な Python ライブラリとツールをインストールして使用できます。
地殻変動環境
PyTorch パッケージのインストールを例に挙げます
conda や pip などのツールを使用して PyTorch をインストールできます。具体的な手順は次のとおりです。
conda を使用して PyTorch をインストールします。
conda install pytorch torchvision cudatoolkit=10.1-c pytorch
ここでの cudatoolkit=10.1 は CUDA 10.1 バージョン用です。他のバージョンの CUDA を使用している場合は、対応するパラメータを変更する必要があります。
pip を使用して PyTorch をインストールします。
pip install torch torchvision
GPU バージョンの PyTorch を使用している場合は、CUDA や cuDNN などの対応するツールをインストールする必要があります。
環境を確認してください
環境を表示するには、次のコマンドを使用します。
conda 環境の場合:
conda info --envs
これには、インストールされているすべての conda 環境が、各環境のパスや Python バージョンなどの情報とともにリストされます。
pip 仮想環境の場合:
source my_env/bin/activate
python -m pip list
这里的my_env是你指定的环境名称。使用python -m pip list命令列出该环境中
文件上传:
在Jupyter里有个按钮,点开就能选择本地的文件进行上传。
文件解压:
需要提前在服务器里安装一个解压缩软件:
对于Ubuntu/Debian系统:sudo apt-get install p7zip-full
对于CentOS/Fedora系统:sudo yum install p7zip-full
安装完成后,你就可以在终端中使用7z解压缩软件进行文件的解压缩了。在终端中输入以下命令进行解压缩:要进入文件所属目录才行
7z x filename.7z
这里的filename.7z是你需要解压缩的文件名。
如果安装不了,可能是因为软件源出现了问题:
尝试使用apt-get update命令更新软件包源,并重新运行apt-get install
直接用这行命令解决:
sudo apt-get update
知识拓展:
更换软件源来解决问题。具体步骤如下:
打开终端,并输入以下命令备份原来的软件源列表:
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
输入以下命令打开软件源配置文件:
sudo nano /etc/apt/sources.list
将原来的软件源地址替换成其他可用的软件源地址。例如,如果你使用的是Ubuntu系统,可以参考Ubuntu官方文档更换软件源。在配置文件中加入新的软件源地址后,可以使用Ctrl+X键保存并退出。
更新软件包列表,使用以下命令更新软件包列表:
sudo apt-get update
跑模型:
单纯运行代码:
也就是在终端中直接运行。
打开控制台,
进入目标文件夹,
使用 python ***.py命令,
如果要运行的代码文件是python语言名叫***的话。
让代码在离线的情况下运行:
如果是在终端中直接运行的话,那么断开SSH连接时,程序就会停止。
也就是说断网或者关闭目前的Jupyter程序就会终止。
解决方法一:
启动训练程序,并使用nohup命令和&符号将程序放到后台运行。例如:
nohup python train.py &
这里的train.py是你的训练程序名称,nohub命令可以让程序在后台运行,并忽略所有挂起信号(SIGNUP).
其中&表示将程序放到后台运行,并输出日志到nohunp.out(自动生成)文件中。
如果需要查看训练日志,可以使用tail命令查看:
tail -f nohub.out
解决方法二:
使用tmux或screen等工具创建一个会话。
如果你使用的是tmux,可以使用以下命令创建一个会话:
tmux new -s my_session_name
如果你使用的是screen,可以使用以下命令创建一个会话:
screen -S my_session_name
这里的my_session_name是你指定的会话名称。
在会话中启动训练程序,例如:
python train.py
这样,训练程序将在会话中运行,即使你断开SSH连接或者退出终端,训练程序仍然会在后台继续运行。
如果你需要重新连接到AutoDL服务器并查看训练日志,可以使用以下命令重新连接到会话:
如果你使用的是tmux,可以使用以下命令重新连接到指定的会话:
tmux attach -t my_session_name
如果你使用的是screen,可以使用以下命令重新连接到指定的会话:
screen -r my_session_name
让程序终止运行:
方法一:
输入
sudo killall python
这个命令可以停止所有python程序的运行。
如果出现command not found错误可能是系统没装这个命令,
可以通过
sudo apt-get install psmisc
来安装
再不行就用:
sudo pkill python
同样可以停止所有python程序的运行
方法二:
找到正在运行模型的进程ID,使用以下命令查找:
ps aux | grep python
ps aux | grep train.py
这里的python是你使用的深度学习框架的解释器名称,例如TensorFlow和PyTorch都是使用python作为解释器。查找结果会显示正在运行的所有python进程及其进程ID。
如果把python换成train的话,就会列出所有正在运行的train进程。
使用kill命令停止模型的运行,例如:
kill -9 process_id
这里的process_id是你查找到的模型进程ID。
确认模型已经停止运行,你可以使用以下命令查看进程是否已经终止:
ps aux | grep python
如果模型的进程已经终止,将不会显示在查找结果中。
需要注意的是,使用kill命令可以强制停止模型的运行,但是这样可能会导致模型在停止前未保存的训练结果丢失。因此,在停止模型之前,建议保存训练结果和模型参数,以便以后继续训练或者使用。
路径问题:
pwd 命令查看当前路径
如果是绝对路径,那么一定是/root开头