配置分布式TensorFlow - 代码天地

配置分布式TensorFlow

编程语言 2018-04-22 19:18:05 阅读次数: 2

在大型数据集上进行神经网络的训练，往往需要更大的运算资源，而且还要耗费若干天才能完成运算量。

TensorFlow提供了一个可以分布式部署的模式，将一个训练任务拆成多个小任务，分配到不同的计算机上来完成协同运算，这样使用计算机群来代替单机计算，可以使训练时间大大缩短。

一分布式TensorFlow的角色及原理

要想配置TensorFlow为分布训练，需要先了解TensorFlow中关于分布式的角色分配。

ps：作为分布式训练的服务端，等待各个终端（supervisors）来连接。
worker：在TensorFlow的代码中被称为supervisors，作为分布式训练的运算终端。
chief supervisors：在众多运算终端中必须选择一个作为主要的运算终端。该终端是在运算终端中最先启动的，它的功能是合并各个终端运算后的学习参数，将其保存或载入。

每个具体角色网络标识都是唯一的，即分布在不同IP的机器上（或者同一个机但不同的端口）。

在实际运行中，各个角色的网络构建部分代码必须100%的相同。三者分布如下：

服务端作为一个多方协调者，等待各个运算终端来连接。
chief supervisors会在启动时统一管理全局的学习参数，进行初始化或从模型载入。
其他的运算终端只是负责得到其对应的任务并进行计算，并不会保存检查点，也不会保存用于TensorBoad可视化的summary日志等任何参数信息。

整个过程都是通过RPC协议来通信的。

二分布式部署TensorFlow的具体方法

配置过程中，首先需要建立一个server，在server中会将ps及所有worker的IP端口准备好。接着，使用tf.train.Supervisor中的managed_session来管理一个打开的session.session中只负责运算，而通信协调的事情就都交给supervisor来管理了。

猜你喜欢

转载自blog.csdn.net/chengqiuming/article/details/80041664

配置分布式TensorFlow

分布式TensorFlow

Tensorflow分布式编程—玩转GPU常见配置

tensorflow分布式训练

TensorFlow分布式实践

TensorFlow分布式计算

分布式TensorFlow简介

【转】分布式Tensorflow

tensorflow 分布式搭建

tensorflow 分布式训练

tensorflow分布式运行

tensorflow分布式框架

分布式配置

TensorFlow 分布式（Distributed TensorFlow）

Jmeter 分布式配置

Hadoop分布式配置

分布式配置中心

disconf 分布式配置

sphinx分布式配置

mongodb 分布式配置

分布式配置中心

Zabbix分布式配置

Jmeter分布式配置

SpringCloud 分布式配置

分布式配置流程

伪分布式配置

Tensorflow 分布式部署简介

TensorFlow 分布式模式介绍

暂存学习笔记：tensorflow分布式

TensorFlow的分布式学习框架简介

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)