Spectral Normalization和weight-clipping以及gradient penalty一样,也是让判别器满足1-Lipschitz条件的方式之一。
如果想让矩阵A映射: 满足K-Lipschitz连续,K的最小值为 ( 是 的最大特征值),那么要想让矩阵A满足1-Lipschitz连续,只需要在A的所有元素上同时除以 (Spectral norm)。
Spectral Normalization实际上在做的事,是将每层的参数矩阵除以自身的最大奇异值,本质上是一个逐层SVD的过程,但是真的去做SVD就太耗时了,所以采用幂迭代的方法求解。