发表于ACL2018
利用Integrated Gradient方法得到模型最关注的词,发现模型往往只关注部分词,而且往往并不重要。通过两种方法说明问题:
1.问题只保留重要词,模型仍有较好结果
2.加入包含重要词的无关句子,模型表现下降很快
这是一种更加有效的攻击方法,也可以衡量模型对于部分重要词的依赖度是否过高,是评价模型的另一种方法
发表于ACL2018
利用Integrated Gradient方法得到模型最关注的词,发现模型往往只关注部分词,而且往往并不重要。通过两种方法说明问题:
1.问题只保留重要词,模型仍有较好结果
2.加入包含重要词的无关句子,模型表现下降很快
这是一种更加有效的攻击方法,也可以衡量模型对于部分重要词的依赖度是否过高,是评价模型的另一种方法