图像分类中的对抗攻击
一些图像分类中的对抗攻击方法.
攻击方法
- 白盒攻击(white-box attacks):在已经获取机器学习模型内部的所有信息和参数上进行攻击。已知给定模型的梯度信息生成对抗样本。
- 黑盒攻击(black-box attacks):在神经网络结构为黑箱时,仅通过模型的输入和输出,生成对抗样本。
- 跨模型可转移性(cross-model transferability):对一个模型制作的对抗样本在很大概率下会欺骗其他模型。可转移性使得黑盒攻击能够应用于实际,并引发严重的安全问题(自动驾驶、医疗)。
- 单步攻击:仅进行一次更新,容易underfit,针对白盒攻击效果差,针对黑盒攻击效果好(转移性强);
- 多步攻击:迭代地更新,容易overfit,针对白盒攻击效果好,针对黑盒攻击效果差(转移性差)。
常用的对抗攻击方法:
- GFSM
- I-FGSM(SIM)
- MI-FGSM
- NI-FGSM
- DIM
- TIM