测量预训练 NLP 模型中的性别相关性

视频介绍:测量预训练 NLP 模型中的性别相关性

自然语言处理(NLP) 在过去几年取得了重大进展,预训练模型(如BERT、ALBERT、ELECTRA和XLNet)在各种任务中都取得了非凡的准确性。在预训练中,通过重复屏蔽单词并尝试预测它们(这称为屏蔽语言建模),从大型文本语料库(例如维基百科)中学习表示。由此产生的表征编码了关于语言和概念之间相关性的丰富信息,例如外科医生和手术刀。然后是第二个训练阶段,微调,其中模型使用特定于任务的训练数据来学习如何使用通用的预训练表示来执行具体任务,例如分类。鉴于这些表示在许多 NLP 任务中被广泛采用,了解其中编码的信息以及任何学习到的相关性如何影响下游性能至关重要,以确保这些模型的应用符合我们的AI 原则。

在“测量和减少预训练模型中的性别相关性”中,我们对 BERT 及其低记忆对应 ALBERT 进行了案例研究,研究了与性别相关的相关性,并制定了一系列使用预训练语言模型的最佳实践。我们展示了公共模型检查点和学术任务数据集的实验结果,以说明最佳实践如何应用,为探索超出本案例研究范围的设置奠定了基础。我们将很快发布一系列检查点Zari 1,它们减少了性别相关性,同时在标准 NLP 任务指标上保持最先进的准确性。

测量相关性

为了了解预训练表征中的相关性如何影响下游任务性能,我们应用了一组不同的评估指标来研究性别表征。在这里,我们将讨论这些测试之一的结果,基于共指解析,这是一种允许模型理解句子中给定代词的正确先行词的能力。例如,在接下来的句子中,模型应该识别出his指的是护士,而不是病人。

该任务的标准学术公式是OntoNotes测试(Hovy 等人,2006 年),我们使用该数据的F1 分数(如Tenney 等人,2019)。由于 OntoNotes 仅代表一种数据分布,我们还考虑了WinoGender基准,该基准提供额外的、平衡的数据,旨在识别性别和职业之间的模型关联何时不正确地影响共指解析。WinoGender 指标的高值(接近于 1)表明模型基于性别和职业之间的规范关联做出决策(例如,相关护士与女性性别而不是男性)。当模型决策在性别和职业之间没有一致的关联时,得分为零,这表明决策是基于一些其他信息,例如句子结构或语义。

在这项研究中,我们看到(大型)BERT或ALBERT公共模型在 WinoGender 示例上都没有达到零分,尽管在 OntoNotes 上取得了令人印象深刻的准确率(接近 100%)。至少其中一些是由于模型在推理中优先使用性别相关性。这并不完全令人惊讶:有一系列线索可用于理解文本,并且通用模型有可能掌握其中的任何一个或所有线索。但是,有理由谨慎,因为模型主要基于作为先验学习的性别相关性而不是输入中可用的证据进行预测是不可取的。

最佳实践

鉴于预训练模型表示中的意外相关可能会影响下游任务推理,我们现在要问:在开发新的 NLP 模型时,我们可以做些什么来减轻这带来的任何风险?

  • 测量意外相关性很重要:可以使用准确度指标评估模型质量,但这些指标仅衡量性能的一个维度,尤其是当测试数据与训练数据来自相同的分布时。例如,BERT 和 ALBERT 检查点的准确度彼此相差在 1% 以内,但它们使用性别相关性进行共指解析的程度相差 26%(相对)。这种差异对于某些任务可能很重要;选择具有低 WinoGender 分数的模型可能适用于包含有关可能不符合历史社会规范的专业人士的文本的应用程序,例如男护士。
  • 即使在进行看似无害的配置更改时也要小心:神经网络模型训练由许多超参数控制,这些超参数通常被选择以最大化某些训练目标。虽然配置选择通常看起来无害,但我们发现它们可能会导致性别相关性的显着变化,无论好坏。例如,使用dropout 正则化来减少过拟合通过大型模型。当我们增加用于预训练 BERT 和 ALBERT 的辍学率时,即使经过微调,我们也看到性别相关性显着降低。这是很有希望的,因为简单的配置更改使我们能够训练模型而降低损害风险,但这也表明我们在对模型配置进行任何更改时应该注意并仔细评估。

  • 普遍缓解的机会:辍学对性别相关性可能出乎意料的影响的进一步推论是,它开启了使用通用方法来减少意外相关性的可能性:通过在我们的研究中增加辍学,我们改进了模型的推理方式关于 WinoGender 示例,而无需手动指定有关任务的任何内容或根本不更改微调阶段。不幸的是,随着 dropout 率的增加(我们可以在 BERT 结果中看到),OntoNotes 的准确性确实开始下降,但我们对在预训练中减轻这种情况的潜力感到兴奋,在预训练中,更改可以导致模型改进,而无需特定于任务的更新。我们探索反事实数据增强作为我们论文中具有不同权衡的另一种缓解策略。

下一步

我们相信这些最佳实践为开发健壮的 NLP 系统提供了一个起点,这些系统在尽可能广泛的语言设置和应用程序中表现良好。当然,这些技术本身并不足以捕获和消除所有潜在问题。在现实世界中部署的任何模型都应该经过严格的测试,考虑到它的多种使用方式,并实施保护措施以确保符合道德规范,例如谷歌的人工智能原则。我们期待评估框架和数据的发展更加广泛和包容,以涵盖语言模型的多种用途及其旨在服务的人群。

更新说明:优先更新微信公众号“雨夜的博客”,后更新博客,之后才会陆续分发到各个平台,如果先提前了解更多,请关注微信公众号“雨夜的博客”。

博客来源:雨夜的博客

猜你喜欢

转载自juejin.im/post/7018795960474009608
今日推荐