摘要

语法错误纠正（GEC）与纠正书面文本中的语法错误有关。当前的GEC系统，即那些利用统计和神经机器翻译的系统，需要大量带注释的训练数据，而这可能是昂贵的或不切实际的。这项研究比较了BEA-2019语法纠错共享任务中在受限和低资源赛道中两个得分最高的提交者使用的合成数据技术。

1.介绍

语法错误纠正（GEC）是自动纠正书面文本中的语法错误的任务。最近，在统计机器翻译（SMT）和神经机器翻译（NMT）方法的框架内，特别是在英语GEC方面取得了重大进展。这些方法的成功可以部分归因于几个大型训练集的可用性。
　　在最新的Building Educational Applications(BEA) 2019共享任务中，该任务延续了早期GEC竞赛的传统，所有24个参赛团队采用了NMT和/或SMT方法。BEA-2019的目标之一是在长时间中断之后重新评估该领域，因为由于缺乏标准化的实验环境，最近的GEC系统已经变得难以评估：尽管自上次CoNLL-2014的共同任务结束以来已经取得了重大进展，最近各个系统在度量和语料库的不同组合进行了培训练，调整和测试。BEA-2019共享任务还引入了一个新的数据集，该数据集代表英语语言水平和领域的不同方法面，以及单独的评估轨迹，即’‘受限’’，’‘非受限’‘和’‘资源不足’'赛道。不受限制的赛道允许使用任何资源；“受限”赛道将学习者语料库的使用限制为公开可用的语料库，而“低资源”路径显着地限制了注释数据的使用，以鼓励开发不依赖大量人工注释数据的系统。
　　受限和资源不足赛道中的两个得分最高的系统是UEDIN-MS和Kakao＆Brain，这两个系统在两个赛道上都远远领先于其他团队；此外，两个系统都使用人工数据来训练其NMT系统，但是它们以不同的方式生成人工数据。有趣的是，在“受限”赛道中，两个系统的得分均相等，而在“低资源”赛道中，Kakao＆Brain表现出更大的性能差距（与“受限”赛道相比下降了10分以上），而UEDIN-MS则为4分。尽管两个团队使用相同的模型架构，即基于transformer的神经机器翻译（NMT），除了数据生成方法的差异外，系统还使用了不同的训练场景，超参数值和训练的语料库。
　　本文的目的是比较UEDIN-MS和Kakao＆Brain系统使用的生成合成数据的技术。UEDIN-MS系统中使用的方法利用了拼写检查器生成的混淆集，而Kakao＆Brain方法则依赖于从少量带注释的样本中提取的学习者模式以及基于POS的混淆。此后，我们将它们分别称为 $I n v e r t e d S p e l l c h e c k e r$ 方法和 $P a t t e r n s + P O S$ 方法。为了确保方法的公平比较，我们控制其他变量，例如模型选择，超参数和原始数据的选择。我们训练NMT系统并在两个学习者语料库上评估我们的模型，这两个语料库是BEA-2019中引入的W＆I + LOCNESS语料库和FCE语料库。使用自动错误类型工具ERRANT，我们还显示了两个语料库上错误类型的性能评估。
　　本文做出了以下贡献：（1）我们使用两种数据集对两种GEC系统的合成平行数据的方法进行了公平的比较；（2）我们发现这两种方法训练了不同的互补系统并且针对不同类型的错误：虽然 $I n v e r t e d S p e l l c h e c k e r$ 方法擅长识别拼写错误，而 $P a t t e r n s + P O S$ 方法更擅长纠正与语法有关的错误，例如名词单复数，动词一致和动词时态；（3）总体而言，与 $I n v e r t e d S p e l l c h e c k e r$ 方法相比， $P a t t e r n s + P O S$ 方法在多个训练场景中表现出更强的结果，这些场景包括合成平行数据，在领域学习者数据中合成数据和在领域外学习者数据中合成数据 ; （4）添加现成的拼写检查器是有益的，并且对于Patterns + POS方法特别有用。
　　在下一节中，我们将讨论相关工作。第3节概述了W＆I+LOCNESS和FCE学习者数据集。第4节介绍了数据合成方法。第5节介绍了实验。第6节分析了结果。第7节对论文进行了总结。

2.相关工作

（1）英语GEC进展
　　早期的GEC方法专注于英语作为第二语言学习者的领域，并利用线性机器学习算法和针对特定错误类型（例如文章，介词或名词编号）的分类器。这种方法可以在本地英语数据，学习者数据或其组合上训练分类器。
　　CoNLL在英语语法纠正方面的共同任务提供了第一批带注释的大型学习数据语料库（NUCLE），以及两个测试集。所有数据均由在新加坡国立大学学习英语的学习者提供（其中大多数是讲汉语的人）。统计机器翻译方法在CoNLL-2014竞赛中首次获得成功。并且从那时起，SMT和NMT方法获得了CoNLL数据集的最好结果。该系统通常在NUCLE和Lang-8语料的英语部分的组合上进行训练，尽管已知后者包含噪声数据，因为仅对其进行了部分校正。
　　（2）Minimally-Supervised and Data-Augmented GEC
　　最近，在生成合成训练数据方面已经进行了很多工作。这些方法可以分解为试图利用其他资源（例如Wikipedia编辑）或通过对正确的英语数据进行加噪处理的方法。Boyd (2018) 通过从德语的Wikipedia修订历史记录中提取的编辑内容来扩充了训练数据，其中通过对内容编辑进行分类，仅保留与GEC相关的内容，其中，使用Wiki Edits从修订历史记录中提取Wikipedia编辑。我们在本次工作使用的多层卷积编码器-解码器神经网络模型证明了所产生的编辑的贡献。Mizumoto et al. (2011) 从Lang-8的修订日志（大约一百万个句子）中提取了一个日本学习者语料库，并实现了基于字符的机器翻译模型。
　　生成平行数据的另一种方法会在格式正确的数据中产生人为错误。该方法在分类框架内被证明是有效的。

3.学习者语料

在这里插入图片描述

4.合成数据生成方法

在本节中，我们描述了生成平行数据以进行训练的两种方法。

4.1 Inverted Spellchecker方法

UEDIN-MS团队提交的系统中使用的生成无监督平行数据的方法的特征在于使用从拼写检查器提取的混淆集。然后，将这些人工数据用于对Transformer序列到序列模型进行预训练。
　　（1）加噪方法概述
　　反向拼写检查器方法利用Aspell拼写检查器生成给定单词的候选列表。根据候选单词到输入单词的加权编辑距离以及它们的语音等效词之间的距离对候选进行排序。然后，系统选择前20条候选作为输入单词的混淆集。
　　对于每个句子，根据开发集的单词错误率确定要更改的单词数。对于每个选择的单词，执行以下操作之一。单词以概率为0.7被替换为从混乱集中随机选择的单词，以概率为0.1的单词被删除，以0.1的概率插入一个随机单词，以概率为0.1时，单词的位置会与相邻单词互换。另外，上述操作在字符级别上针对10％的单词执行，以引入拼写错误。应该强调的是，尽管“反向拼写检查器”方法使用了来自拼写检查器的混淆集，但是该方法的思想是生成合成噪声数据，以训练通用GEC系统来纠正各种语法错误。
　　（2）训练细节
　　UEDIN-MS系统通过对在WMT新闻抓取语料库采样的1亿个句子上应用Inverted Spellchecker方法，生成了平行数据。该数据用于在受限赛道和LowResource赛道中对Transformer模型进行预训练；这些模型的主要区别在于用于微调的数据集。
　　在“受限”赛道中，来自FCE，Lang-8，NUCLE和W＆I + LOCNESS的所有可用注释数据都用于微调。在“低资源”赛道中，使用了WikiEd语料库的子集。WikiEd语料库包含从Wikipedia修订版中自动提取的5600万个平行句子。人工注释的W＆I + LOCNESS训练数据被用作种子语料库，以从WikiEd语料库中选择最匹配该域的200万个句子对。然后，将这200万个句子用于微调在合成数据上预训练的模型。

4.2 Patterns+POS方法

Kakao＆Brain系统通过引入两种加噪方案来生成人工数据：基于字符的方法（模式）和基于类型的方法（POS）。类似于UEDIN-MS系统，然后使用合成数据对Transformer模型进行预训练。
　　（1）加噪方法概述
　　该方法首先使用来自W＆I + LOCNESS训练数据的少量学习者样本来提取错误模式，即发生的编辑及其频率。编辑信息用于构建常用编辑字典。然后，通过对语法正确的句子进行相反的编辑，使用此词典来产生噪声数据。
　　对于在编辑模式字典中找不到的训练数据中的任何字符，将应用基于类型的加噪场景。在基于类型的方法中，基于词性（POS）添加噪声。在此，仅对介词，名词和动词进行噪声化，单个字符的概率为0.15，如下所示：名词可以用单数/复数形式代替；动词可以用其形态学变体代替；一个介词可以用另一个介词代替。
　　（2）训练细节
　　通过将Patterns + POS方法应用于来自Gutenberg，Tatoeba和WikiText-103的数据集，从而生成了Kakao＆Brain系统的合成数据。最终的预训练数据集是4500万个句子对的集合，并且将加噪方法多次应用于每个数据集（1x Gutenberg，12x Tatoeba和5x WikiText-103）以大致平衡每个来源的数据。在“受限”赛道和“低资源”赛道中，这4500万个句子对用于预训练模型。这些赛道的各个系统的主要区别在于数据集不同，在“受限”赛道中，训练步骤中使用了来自FCE，Lang-8，NUCLE，W＆I + LOCNESS的所有可用注释数据。在“低资源”赛道中，对从W＆I + LOCNESS开发数据中采样的3000个句子的子集进行了训练。

A Comparative Study of Synthetic Data Generation Methods for Grammatical Error Correction翻译

摘要