Tensor Flow 深度框架的学习(第四天)

第四天的学习内容(10-11)

      1.TensorFlow分布式执行时的通信和单机设备间的通信很相似,但是对发送节点和接收节点的实现不同。

      2.Tensor Flow分布式具有容错性。故障检测出来的两种情况:

         (1).信息从发送节点传输到接收节点失败时

         (2).周期性的worker心跳(定时发送一个自定义的结构体,以确保对方知道自己在线,从而确保链接的有效性)检测失败时。

          Variable node每个都会链接一个Save node,每隔几轮迭代就会保存一次数据到持久化的存储系统。同时,每个Variable node都会链接一个Restore node,在每次重启时被调用并恢复数据。

     —>发生故障并重启之后,模型的参数将得以保留,训练将从上一个checkpoint恢复而不需要重头再来。

     3.Tensor Flow在大规模分布式系统上有着相当高的并行效率。

     4.Tensor Flow原生支持求导。

     5.BP算法(back propagation算法)。(由于BP算法需要反向传播计算梯度,会用到计算图开头的tensor,导致这些tensor占用大量的GPU内存,也限制的模型的规模)

     6.Tensor Flow支持单独执行子图,用户可以选择计算图的任意子图,并沿某些边输入数据,同时从另一些边获得输出结果。

    7.Tensor Flow用节点名+port的形式指定数据

        例如:bar:0表示名为bar的节点的第一个输出。

       

猜你喜欢

转载自blog.csdn.net/weixin_42554580/article/details/80906361