Tensorflow的并行计算

每个GPU上的模型相同，喂以相同模型不同的训练样本。
数据并行根据参数更新方式的不同又可以分为同步数据并行和异步数据并行。

1、同步更新

每个GPU根据loss计算各自的gradient，汇总所有GPU的gradient，求平均梯度，根据平均梯度更新模型参数，具体过程见下图。所以同步数据并行的速度取决于最慢的GPU，当各个GPU的性能相差不大时适用。在同步更新的时候，每次梯度更新，要等所有分发出去的数据计算完成后，返回回来结果之后，把梯度累加算了均值之后，再更新参数。这样的好处是loss的下降比较稳定，但是这个的坏处也很明显，处理的速度取决于最慢的那个分片计算的时间。

2、异步更新

在异步更新的时候，所有的计算节点，各自算自己的，更新参数也是自己更新自己计算的结果，这样的优点就是计算速度快，计算资源能得到充分利用，但是缺点是loss的下降不稳定，抖动大。

3、如何选择

在数据量小的情况下，各个节点的计算能力比较均衡的情况下，推荐使用同步模式。数据量很大，各个机器的计算性能掺差不齐的情况下，
推荐使用异步的方式。

4. 共享变量

之前提到了我们在定义多层变量时，一个一个定义权重和偏置，对于大型网络是不太现实和让人崩溃的。所有就有了tf.variable_scope 和 tf.name_scope()。
tf.name_scope()主要是与Variable配合，方便参数命名管理
tf.variable_scope与tf.get_variable配合使用，实现变量共享
tf.name_scope命名空间是便于管理变量，不同命名空间下的用Variable定义的变量名允许相同。可以理解为名字相同，但是姓（命名空间）不同，指向的也是不同变量。而tf.get_variable()定义的变量不受命名空间的限制（主要是用于共享变量，避免大型网络结构中定义过多的模型参数。我们主要看tf.variable_scope()的使用。

一种tang两种味

发布了46 篇原创文章 · 获赞 10 · 访问量 4408

私信关注