【Tensorflow object detection API】多GPU卡并行训练+Ubuntu 16.04（完美运行，教程步骤清晰！！） - 代码天地

【Tensorflow object detection API】多GPU卡并行训练+Ubuntu 16.04（完美运行，教程步骤清晰！！）

其他 2020-10-03 18:06:00 阅读次数: 0

问题描述：我的电脑有3块2080ti的GPU，在采用Tensorflow object_detection API原有的model_main.py进行训练时，源于tensorflow本身性质，直接占满3块GPU，本来以为这样就是利用了多卡进行训练（结果还是想得太简单）；
出错：可是将batch_size设置成128就会显存溢出，照理GPU的性能是够用的
解决思路：
利用nvidia-smi命令观察GPU使用情况，发现虽然是占满了3张卡，可是默认只使用了1张卡在训练，并没有利用3卡训练，如下图：

解决办法：

不能采用model_main.py训练，因为Estimator分发策略不适用于tf.contrib.slim。所以没有关于分布式训练，多卡训练的部分。
具体步骤有2步：
（1）采用/legacy/train.py用2张卡进行训练：
其中CUDA_VISIBLE_DEVICES=0,1代表使用0号GPU和1号GPU;

CUDA_VISIBLE_DEVICES=0,1 python3 object_detection/legacy/train.py \
  --logtostderr  \
  --pipeline_config_path=object_detection/ssd_model/ssd_mobilenet_v1_pets.config  \
  --train_dir=object_detection/ssd_model/training6 \
  --num_clones=2  --ps_tasks=1

（2）采用legacy/eval.py用剩下1张卡进行评估：


CUDA_VISIBLE_DEVICES=2 python object_detection/legacy/eval.py \
  --logtostderr  \
  --pipeline_config_path=object_detection/ssd_model/ssd_mobilenet_v1_pets.config  \
  --checkpoint_dir=object_detection/ssd_model/training6 \
  --eval_dir=object_detection/ssd_model/eval6

采用如上步骤后，可以看到完美的利用了3张GPU,可以将batch_size调大了！！

猜你喜欢

转载自blog.csdn.net/qq_43348528/article/details/107065506

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)