[Linux服务器]跑深度学习框架常用指令和使用指南Mac

1. 连接app的选择

window下:可视化传文件使用winscp,在命令行输入指令使用putty或xshell等
Mac下:可视化传文件使用ForkLift,在命令行输入指令使用Mac自带的终端使用方法

2. 连接需要的信息

  • 服务器的用户名如 ubuntu
  • 服务器的地址 如 12.34.56.78
  • 服务器的端口号 默认是22 如123
  • [email protected] -p 123

3. 操作步骤

3.1 进入指定文件夹

  • cd afile 进入afile文件夹
  • cd ..退出当前文件夹
  • cd ../.. 退出两层文件夹
  • ls 查看当前文件夹里所有文件名

3.2 设置环境

如果服务器安装了anaconda,则非常简单

  • conda creare -n test python=3.7 创建python版本是3.7的名字是test的环境
  • conda activate test 激活环境
  • conda deactivate 关闭环境
  • conda env list 查看所有环境
  • conda remove --name test --all 删除环境
  • conda install xxx/ pip install xxx 安装需要的包
    *如果工程中有写了需要哪些包的requirements.txt文件,也可以 conda/pip install requirements.txt 来安装工程需要的所有包
  • conda uninstall xxx 删除某个包
  • conda list 查看该环境下所有包

注意如果要安装tensorflow,pytorch,numpy,cuda,cudnn这些包时,最好按照官网指令安装,以免发生包冲突。这里也有介绍

3.3 训练前准备

nvidia-smi 查看gpu使用情况
gpu export CUDA_VISIBLE_DEVICES=0 规定使用0号gpu(有些代码也可以在train.py里规定)

3.4 训练过程

事例:
nohup python -u train.py --config-yml configs/lf_disc_faster_rcnn_x101.yml --load-pthpath checkold/checkpoint_31.pth --validate --gpu-id 0 1 --cpu-workers 8 >> outfile-name &

  • 后面“–”都是args参数,可以自行修改
  • nohup 表示把日志存储在当前目录下的nohup.out文件中,* 而不显示在终端中
  • python -u 表示打印日志
  • & 表示后台运行,这样关掉远程连接,程序可以继续运行
  • tail -fn 50 nohup.out 查看最后50行日志(注意需要定位到nohup.out所在文件夹)

后台运行还可以用screen,主要是针对程序运行时还需要输入初始参数的情况(因为用nohup组合指令时,不能再输入参数)

  • yum install screen -y 安装screen
  • screen -S test 创建名字为test的session 在这个session里面运行需要的程序
  • ctrl-a d 退出当前session
  • screen -ls 查看所有的session
  • screen -r test 重新进入test session
  • ctrl-d 彻底关闭当前session

3.5 关闭训练程序

  • ctrl-c 适用于关闭没有在后台运行的程序
  • kill -9 1234 关闭job-id是1234的程序
  • ps aux|grep python 查看目前所有在服务器上运行着的python指令的job-id

3.6 查看tensorboad训练图

  • tensorboad --logdir “logs” logs是训练时生成的tensorboad文件所在的文件夹

4. 其他常用指令

ctrl-L 清除当前终端屏幕的所有东西

猜你喜欢

转载自blog.csdn.net/qq_45347185/article/details/114802256
今日推荐