2021-3-13组会 ASV 以及对抗样本攻击和预防 分享

0. 说明

  • 用魔法打败魔法
  • 不在训练的角度改进
  • 思路一: 在测试的时候, 通过 voting ASV, 让白盒的 ASV 多样化, 然后就复杂化了, 没办法进行白盒攻击 (这个是错误的理解思路)
  • 思路二: 在测试的时候, 先根据 x0 生成很多周围的 xi, 很多个 xi 去进行 ASV, 然后投票进行答案. 这样打破了噪声 x0 精心构建的策略. 利用了两个假设: (1) 攻击是利用梯度回传取巧的 (2) 对于 ASV 的能力来说, 可以采用"近朱者赤近墨者黑"策略, 并且他周围都是正常的, 只是有极少个几个点是 "害群之马" (这个思路是对的)
  • 那么平衡点在于, ASV 的团结能力, 与 攻击的团结能力的差异性, 以及 给定 x0, 去寻找它的周围的团队的方案, 之间是否能够调出来: 不影响 ASV 本身正确率, 并且抵抗住攻击. 正负样本都要考虑

1. Fast ResNet34

1.1. Fast ResNet34 with Self Attentive Pooling

  • EER 比 Kaldi 还低 in Voxceleb 2.58%

1.2. Fast ResNet34 with Attentive Statistics Pooling

  • EER 2.52%
  • 经过 attention 之后 weighted mean 和 weighted std, TODO

2. Attack EPS

  • EPS 代表噪声扰动, 添加了 5% 的 MSE 扰动, 就可以让不能通过的东西, 骗过系统, 通过系统. Fool
  • 其中, 扰动的时候, 需要用很好的攻击办法
  • FAR/FER 分别代表了正样本没通过 和 负样本没通过
  • EPS 15% 在人耳朵是听不出来的, 是个假设

可以有一个类似的好玩的类比:

  • 还没入学的学生 雷瞬, 进不来, ASV -> False
  • 雷瞬拿着海滨的照片, 贴在脸上, ASV -> True, 但是保安会发现
  • 雷瞬戴上口罩, 贴个眉毛, 整个发型, 保安也不会发现很奇怪, 同时长得也像海滨, ASV -> True, 攻击成功 (攻击网络结构梯度回传, 好的攻击办法效果好, 差的保安, 效果也会好)
  • 如果进门的时候, 保安让雷瞬戴上口罩, 带下口罩, 去掉眉毛, 眨眨眼, 笑一笑, 发型动一动, 最终 ASV 投票是不是海滨, Voting ASV -> False, 攻击失败, 防御成功

3. Voting 理论方法

  • 在不同的 EPS 下, 对 x 加高斯噪声, 得到 xi
  • 对于 ASV 本身来说, x 和 xi 都会没问题, 因为 NN 本身对高斯噪声是鲁棒的
  • 而攻击设计出来的 x_攻击, 他自己是"害群之马", 是特例, 它的周围的高斯噪声均是良民; 相当于利用高斯噪声把梯度回传设计攻击的方案给卡死了
  • 有点像之前海滨的, 将一段语音切分成三段, 然后分别投票, 是这个思路的平行延伸
  • Voting EPS 的选择, 也是很有技巧的, 需要在 ASV 正常的数据上, 进行一个极限的选取
  • Voting 的方法: 可以加高斯噪声, 也可以加均匀噪声, 需要去思考: 什么是 NN 对于输入来说的 邻居了

引自: https://zhuanlan.zhihu.com/p/98982444, 谢谢~

4. 网络预测 STD

  • 现在的网络的输入和输出, 均是进行均值的预测
  • 但是有的神经网络, 也是可以预测出来 STD 的, TODO; 就可以破解他们的方法了

5. 相关实验

在 PPT 上

6. 本质好处

添加噪声后采样 Voting, 相当于 data argumentation

相当于增多了 ASV 的数据

而增多 ASV 的数据, 是有利于 ASV 系统的训练的, 同时是 有害于 攻击系统的训练的

  • 把正常 samples 和它的10次高斯扰动们加入集合 A
  • 把攻击得到的样本 和它的10次高斯扰动加入集合 B
  • 需要同时满足 A 训练正确, B 攻击成功 (会卡的越来越死), 那么 A 和 B 均是原来的 10 倍, 所以是有利于防守, 不利于攻击的

7. 加攻击时域或者频域

7.1. 在时域加噪声

7.2. 在频域加噪声

8. 提升到大气层

其实这是个千层饼, 本身别人是通过加噪声来攻击 ASV

而我们又用加噪声, 产生很多 voting, 来攻击 攻击的系统

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/114745746