ICML 论文阅读(1) Understanding Black-box Predictions via Influence Functions

论文链接

abstract

提出两个问题:

  • 如果将某个训练点移除训练会怎样?
  • 如果某个训练点略有改变训练会怎样?

贡献:

  • 通过 “影响” 函数去理解黑盒预测,识别最有影响力的训练点;
  • 只需要梯度和Hessian矩阵;
  • “甚至”表明了非凸和非可微在哪里理论破裂;
  • 证明了“影响”方法的多种可用目的:
    ① 理解模型行为 ② 调试模型 ③检测数据集错误 ④甚至创建视觉上无法区分的训练集攻击。

理解固定模型如何导致特定预测

5.影响函数的使用方法

5.1理解模型行为

influence function揭示了模型如何依赖于训练数据和从训练数据推断的。两个模型可以通过不同的方式做出相同的预测。本文使用Inception v3和使用RBF作为核函数的SVM两个模型做了实验。

5.2对抗训练样本

z˜i

参考博文:
[1] [2] [3]
[4] PPT+视频

猜你喜欢

转载自blog.csdn.net/qq_37717661/article/details/85054023