分类器应该近似于常数的点(我们无法想象所有未来自然发生的输入)

周围的社区 x

我们目前使用的是有些武断和保守的; 我们倾向于使用 Lp
  1. 由于人类观察者认为,对于一个足够小的标准球,所有封闭点应该具有相同的类别,但是实际上,常量类别的区域应该更大并且具有不同的,不规则的,不太容易指定的形状。

总之,验证机器学习模型首先要求我们定义一组合法输入,即我们希望模型正确分类的一组输入。 这套法律输入通常比大多数基准中包含的“测试集”大得多。 然后研究人员将不得不设计验证技术,以有效地保证对整套法律输入所做的机器学习预测的正确性。 机器学习中经常遇到的挑战 - 例如需要推广到新的投入 - 可能使这成为一个特别困难的目标,正如本文中引用的努力[PT10,HKW16,KBD17]所表明的那样。 如果是这样的话,其他社区开发的技术可以通过更接近测试的程序对机器学习模型进行部分验证:一个很好的例子就是模糊测试在计算机安全领域的积极影响。

对抗环境中有没有“免费午餐”定理?

值得考虑的是没有验证系统可能存在的可能性,因为没有机器学习模型将永远是完全健壮和准确的。 特别是,在接近新的,以前看不见的合法投入的情况下推广投入的挑战 x

似乎很难克服。

在传统的机器学习环境中,机器学习系统在新的测试点上的预期能力有多明确的理论限制。 例如,“无免费午餐”定理[W96]指出,当对所有可能的数据集进行平均时, 所有监督分类算法在新测试点上具有相同的准确度。

一个重要的开放理论问题是,“不免费午餐”定理是否可以延伸到对抗环境。 如果我们假设攻击者通过对测试集进行小扰动来操作,那么“无免费午餐”定理的前提是,平均值被用于所有可能的数据集,包括小扰动不应该被分类器忽略的数据集,否更久适用。

根据这个问题的解决方案,攻击者和维权者之间的军备竞赛可能会有两种不同的结果。 由于与预测新测试点的正确值相关的固有统计困难,攻击者可能从根本上具有优势。 如果我们幸运的话,防御者可能对广泛的问题类有一个基本的优势,为设计和验证具有鲁棒性保证的算法铺平了道路。

有兴趣的读者可以在[PMS16]中找到关于这个问题的初步讨论。 该分析描述了模型准确性和对抗性努力的稳健性之间的权衡。 它表明,在存在能够找到增加学习者损失的分布的对手的情况下,学习者从移动到更丰富的假设类别中受益。 更丰富的假设类被非正式地定义为一个更复杂的假设类别,它可以为任何分布提供较低的最低损失。 因此,在数据有限的情况下可能会出现紧张局势 - 因为学习更复杂的假设通常需要更多的实践数据。

使用CleverHans进行可重复测试

尽管从理论角度来看验证具有挑战性,但从实际角度来看,即使是简单的测试也是具有挑战性的。 假设研究人员提出了一种新的防御程序,并针对特定的对抗性示例攻击程序评估了防御。 如果最终的模型获得高准确性,这是否意味着辩护是有效的? 可能,但也可能意味着研究人员对攻击的执行力度很弱。 当研究人员针对他们自己的共同防御程序的实施测试所提出的攻击技术时,会出现类似的问题。

为了解决这些困难,我们创建了CleverHans库 这个库包含几个攻击和防御程序的参考实现。 研究人员和产品开发人员可以使用cleverhans来测试他们的模型,以对抗标准化,最先进的攻击和防御。 通过这种方式,如果防御对抗cleverhans攻击获得高准确性,测试结果显示防御力强,而且如果攻击获得了对抗cleverhans防御的高失败率,测试结果显示攻击强烈。 此外,发表的研究结果可以相互比较,只要它们在类似的计算环境中使用相同版本的CleverHans制作即可。

结论

机器学习模型的验证仍处于起步阶段,因为方法会做出假设,阻止它们提供缺乏对抗性例子的绝对保证。 我们希望我们的读者能够得到启发,解决其中的一些问题。 另外,我们鼓励研究人员使用CleverHans来提高敌对设置中机器学习测试的可重复性。

致谢

我们要感谢Martin Abadi对这篇文章的草稿的反馈。 感谢Marta Kwiatkowska指出动画图例中的颜色错误,将测试与验证进行比较。

References

[GBB11] Glorot, X., Bordes, A., & Bengio, Y. (2011, April). Deep Sparse Rectifier Neural Networks. In Aistats (Vol. 15, No. 106, p. 275).

[GSS14] Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.

[HKW16] Huang, X., Kwiatkowska, M., Wang, S., & Wu, M. (2016). Safety Verification of Deep Neural Networks. arXiv preprint arXiv:1610.06940.

[JKL09] Jarrett, K., Kavukcuoglu, K., & LeCun, Y. (2009, September). What is the best multi-stage architecture for object recognition?. In Computer Vision, 2009 IEEE 12th International Conference on (pp. 2146-2153). IEEE.

[KBD17] Katz, G., Barrett, C., Dill, D., Julian, K., & Kochenderfer, M. (2017). Reluplex: An Efficient SMT Solver for Verifying Deep Neural Networks. arXiv preprint arXiv:1702.01135.

[NH10] Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th international conference on machine learning (ICML-10) (pp. 807-814).

[PMJ16] Papernot, N., McDaniel, P., Jha, S., Fredrikson, M., Celik, Z. B., & Swami, A. (2016, March). The limitations of deep learning in adversarial settings. In 2016 IEEE European Symposium on Security and Privacy (EuroS&P) (pp. 372-387). IEEE.

[PMS16] Papernot, N., McDaniel, P., Sinha, A., & Wellman, M. (2016). Towards the Science of Security and Privacy in Machine Learning. arXiv preprint arXiv:1611.03814.

[PT10] Pulina, L., & Tacchella, A. (2010, July). An abstraction-refinement approach to verification of artificial neural networks. In International Conference on Computer Aided Verification (pp. 243-257). Springer Berlin Heidelberg.

[SZS13] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., & Fergus, R. (2013). Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199.

[V98] Vapnik, V. (1998). Statistical Learning Theory.

[W96] Wolpert, D. H. (1996). The lack of a priori distinctions between learning algorithms. Neural computation, 8(7), 1341-1390.