第四天的学习内容(10-11)
1.TensorFlow分布式执行时的通信和单机设备间的通信很相似,但是对发送节点和接收节点的实现不同。
2.Tensor Flow分布式具有容错性。故障检测出来的两种情况:
(1).信息从发送节点传输到接收节点失败时
(2).周期性的worker心跳(定时发送一个自定义的结构体,以确保对方知道自己在线,从而确保链接的有效性)检测失败时。
Variable node每个都会链接一个Save node,每隔几轮迭代就会保存一次数据到持久化的存储系统。同时,每个Variable node都会链接一个Restore node,在每次重启时被调用并恢复数据。
—>发生故障并重启之后,模型的参数将得以保留,训练将从上一个checkpoint恢复而不需要重头再来。
3.Tensor Flow在大规模分布式系统上有着相当高的并行效率。
4.Tensor Flow原生支持求导。
5.BP算法(back propagation算法)。(由于BP算法需要反向传播计算梯度,会用到计算图开头的tensor,导致这些tensor占用大量的GPU内存,也限制的模型的规模)
6.Tensor Flow支持单独执行子图,用户可以选择计算图的任意子图,并沿某些边输入数据,同时从另一些边获得输出结果。
7.Tensor Flow用节点名+port的形式指定数据
例如:bar:0表示名为bar的节点的第一个输出。