用强大的单词识别能力对抗对抗性拼写错误

摘要

摘要为了克服对抗性拼写错误，我们建议在下游分类器前放置一个单词识别模型。我们的单词识别模型建立在RNN半字符结构的基础上，引入了一些新的后退策略来处理罕见和未见的单词（backoff srategies -> 未登录词）。经过训练，我们能够识别由随机添加、删除、交换和键盘错误打断的单词，与普通的半字符模型相比，我们的方法实现了32%的相对(和3.3%的绝对)错误减少。尤其是，我们的管道对下游分类器提供了健壮性，比对抗训练和现成的拼写检查器都好。与用于分析的BERT模型相比，一个反向选择的字符攻击的准确率从90.3%降到45.8%。我们的防御将准确率恢复到75%。令人惊讶的是，更好的单词识别并不总是意味着更强的鲁棒性。我们的分析表明，鲁棒性还取决于我们表示为灵敏度的数量。

1 介绍

尽管深度学习技术在不同监督学习任务上取得了快速进展，但这些模型对于数据分布的细微变化仍然很脆弱。即使允许的变化仅限于几乎察觉不到的扰动，训练健壮的模型仍然是一个开放的挑战。在发现难以察觉的攻击可能导致图像识别模型错误地将示例进行分类 (Szegedy et al.， 2013)之后，出现了一个名副其实的子领域，作者在其中迭代地提出攻击和对策。

在本文中，我们关注在文本分类上下文中逆向选择的拼写错误，解决以下攻击类型:删除、添加和交换单词中的内部字符。这些干扰的灵感来自心理语言学研究(Rawlinson, 1976: Matt Davis, 2003)，该研究表明，如果每个单词的首字母和尾字母保持不变，人类可以理解由混乱的内部字符字符改变的文本。

首先，在处理BiLSTM和经过微调的BERT模型的实验中，包括四种不同的输入格式:word-only、char-only， word+char和word-piece (Wu et al.， 2016)，我们证明了对手可以将分类器的性能降低到随机猜测的水平。这只需要修改每句话的两个字符。这样的修改可能会将单词翻转到词汇表中的另一个单词，或者更常见的情况是，将词汇表外的单词翻转到token UNK。因此，对抗性编辑可以通过将提供信息的词转换为UNK来对word level model进行性能降低。直观地说，人们可能会怀疑单词片段和字符级模型（word-piece character-level) 不太容易受到拼写攻击，因为它们可以使用剩余单词文本。然而，我们的实验表明，字符和单词块模型（以上两个）实际上更脆弱。我们证明这是由于对抗样本的有能力对这些模型进行更细粒度的操作。而对一个字级模型，对手大多被限制为UNK-ing words，对一个word-piece or character-level 模型，每个字级add, drop或swap生成远程输入，为对手提供更大的选项集。

UNK是Unknown Words的简称，在用seq2seq解决问题上经常出现。

第二,我们评价一线技术包括数据扩充和敌对抗性训练，证明他们只提供微小的效益,例如,伯特模型实现精度90.3情绪分类任务,由adversarially-chosen退化到64.1 1角色互换的句子,只能恢复到69.2的对抗训练。

第三(我们的主要贡献)，我们提出了一种与任务无关的防御方法，附加一个单词识别模型，该模型预测给定完整序列(可能拼写错误)输入的句子中的每个单词。单词识别模型的输出形成对下游分类模型的输入。Sakaguchi等人(2017)在基于rnnbased的半字符单词识别模型的基础上建立了我们的单词识别模型。虽然我们的单词识别器是从手头的任务中针对特定领域的文本进行训练的，但由于特定领域的词汇量很小，它们常常在测试时预测UNK。为了处理未观察到的和罕见的单词，我们提出了几种后退策略，包括退回到训练在更大语料库上的通用单词识别器。结合我们的防御，伯特模型受到1个字符的攻击恢复到88.3。81.1、78.0准确率分别为交换、删除、添加攻击。

第四，我们提供了一个详细的定性分析，表明一个低错误率是不够一个单词识别器提高下游任务的鲁棒性。此外,我们发现识别模型为攻击者提供很少的自由度是很重要的。我们提供了一个度量标准（sensiticity）来量化识别模型，并研究其对稳健性的经验。灵敏度低、错误率低的模型鲁棒性最强。

论文阅读 | Combating Adversarial Misspellings with Robust Word Recognition

摘要

1 介绍

猜你喜欢