在服务器上利用nvidia-docker进行mxnet-ssd训练 - 代码天地

在服务器上利用nvidia-docker进行mxnet-ssd训练

其他 2018-08-30 12:11:28 阅读次数: 0

1.登录服务器，安装docker和nvidia-docker，服务器中已有mxnet镜像，直接run一个容器。

2.数据集的挂载，先将本地数据集挂载到服务器上，利用sshfs命令，见上篇文章；run容器的时候，用-v命令将服务器的挂载点挂载到容器中。

3.修改配置文件：

（1）：修改ssd/tools下边的prepare_dataset.py中的命令,改为相应路径指明

（2）：修改ssd/dataset/names/pascal_voc.names文件的名称，要和标注是的label名一样。

（3）：修改train.py中的 --train-path 、--train-list data_shape =300; batch_size = 32; begin_epoch =0; end_epoch=240;

(4)修改ssd/config/config_reader.py中的path，改为JPEGImages的绝对路径。

mxnet-ssd训练总流程：

1.写程序显示每张图片，并按‘y’能保存到相应的路径下，以此挑出符合条件的图片

2.将跳出的图片放到voc2007的jpegimages文件夹中

3.labelimage软件处理成.xml文件

4.编程实现train.txt test.txt trainval.txt val.txt。最重要的是训练和验证，验证集是在训练的时候验证模型。

5.将vgg16放到model下，数据集放到data下，修改names，用来检测.xml中各标签的数量。

6.生成.lst .rec

7.修改train.py的batch-size，data-shape，分类数量和名称，然后训练

8.评估，用训练数据

9.deploy，便于c++调用

10.写c++批量预测图片

出错：

（1）运行python train.py,出现mxnet.base.mxneterror: src/io/local_filesys.cc:86 localfilesystem /data error：no such file or directory

solve：进入train.py中，删除/data中的‘/’。

（2）python train.py 出错：error：no image in imdb

solve: 修改ssd/dataset/names/pascal_voc.names文件的名称，要和标注是的label名一样。

（3）：python train.py 出错：index3 is out of bounds for axis 1 with size 3

数据集的错误，.xml文件数量和JPEGImages文件夹中数量不一样。

solve：找到JPEGImages文件夹中有而Annotation文件夹中没有的图片，删除！

（4）cudaMalloc failed: out of memory

solve:退出容器，停止容器，重新进入容器，在训练就可以了。

猜你喜欢

转载自blog.csdn.net/weixin_39608351/article/details/82182383

在服务器上利用nvidia-docker进行mxnet-ssd训练

在linux服务器上搭建nvidia-docker环境

MXNet-SSD 初识

安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南

mxnet-ssd 安装使用问题

MXNet-SSD 再识--尝试不同的预训练模型的效果

ubuntu上在线安装nvidia-docker

docker nvidia-docker

安装nvidia-docker

Nvidia-docker安装

nvidia-docker的安装

在 OpenEuler 系统上安装 Docker 和 Nvidia-Docker

mxnet-ssd修改类的数量和名称

Windows上利用Caffe-SSD进行训练和测试

nvidia-docker部署pytorch服务【GPU工作站】

NVIDIA-Docker的安装与使用

nvidia-docker操作命令

Deepin 安装 NVIDIA-Docker

CenterOs nvidia-docker install

Ubuntu NVIDIA-Docker安装

ubuntu install nvidia-docker

云服务器上利用Docker部署Django项目

ubuntu上安装NVIDIA驱动和cuda9.0，及NVIDIA-Docker

【TensorFlow】：在Linux上安装nvidia-docker环境，解决显卡切换问题，只需要几步就可以成功安装，安装之后登陆不了界面，只能变成服务器模式命令后执行了。

Docker(一）：Docker（NVIDIA-Docker）安装

Ubuntu + Docker + NVIDIA-docker + Deepo安装

nvidia-docker 和 docker 的安装

Ubuntu安装docker及nvidia-docker

docker/nvidia-docker使用整理

如何在ubuntu上安装nvidia-docker同时与宿主共享GPU cuda加速

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)