提名标签:基于约束Transformer的文本生成器复现

 一、摘要

      本文研究了Seq2Seq(S2S)约束文本生成任务,其中生成器必须在生成的输出中提及特定的单词,这些单词是编码器的输入。与预训练的S2S模型(如T5或复制机制)不同的是,虽然它们可以从编码器复制表面标记到解码器,但它们不能保证满足约束条件[1]。在传统的约束解码算法中,总是会产生满足所有约束条件的假设句子,但这些算法计算代价昂贵,并且可能降低生成文本的质量。因此,本文提出了一种新的生成具有特定约束的文本的方法,即Mention Flags(MF),可以跟踪文本中是否满足了规定单词的约束条件。在MF模型中,与每个解码器输入标记相关的标志指示到该标记为止已经满足的约束条件。MF包括三个可能的Mention Flags的嵌入,分别表示这些规定单词已经被满足、未被满足和不适用[2]。在训练期间,当生成End-of-Sequence(EOS)标记时将设置所有的Mention Flags,以强烈推动模型直到满足所有约束条件之前不停止生成[2]。通过对CommonSense Generation、End2end Data-to-Text和Novel Object Captioning等三个任务的实验,Mention Flags的方法可以在保持高约束满足和文本质量的情况下,实现具有更低运行时间的比约束解码算法更高质量的文本生成效果,并且此方法适用于非预训练和预训练的S2S Transformer模型,可以满足不同的约束条件[1][2]。

二、论文翻译:

1、引言

      本文主要研究Seq2Seq(S2S)约束问题文本生成,其中需要一组编码器输入tokens 产量,例如,关键字到文本(Lin等人, 2020年),数据到文本(加尔登特等人,2017年;Dusekˇ 等人,2020年)和图像到文本(Lin等人,2014年; Agrawal等人,2019)要求模型包含所有或部分输入关键字,关键值对和图像对象标签(分别),波与语言变体,在生成 产量基于大型(预训练)的transfomer S2S模型,如T5(Raffeletal,2019)可以是 经过训练(经过微调)以执行此任务。然而, 他们只学会了复制表面词项编码器的输入到解码器的输出,并没有潜在的机制保证良好的词汇约束满足(满足的词汇和约束与给定的词汇约束的比率)。Constrained 光束搜索(CBS)(Anderson等人,2017)和 相关算法可以保证输出满足所有约束,但它们要慢得多 比标准的波束搜索算法更好。

       约束词或短语,产生的属可能很差。理想情况下,一种生产方法 受约束的文本应该是: a)生成高质量的文本 文本,达到较高的约束满意度 一个有效的推理过程。为此目的,我们建议提名标识(MF), 追踪一个词汇约束是否存在 实现在部分解码器输出。Specifically, 每个解码器的输入令牌都提供了一组 指示哪些约束的标志一直设置到该标记。如图1所示,为提名花的标识是从第三步开始设置的, 因为花是在第二步中产生的。我们表示三种可能的提到标志作为分别训练的嵌入,并注入它们到 基于S2S  transformer的文本生成器的解码器。动态的提名标识明确地通知建立了约束的模型,有助于模型的生成满足约束条件的高质量文本(目标 a).在训练期间,所有提名标识当模型的任务是生成序列的末端序列(EOS)词项时,强烈推荐模型不停止生成,直到所有的约束已满足(目标b)。MF型号只需要普通的解码算法。他们的推理时间 和内存需求类似于它们的基本线模型(目标c)。

        我们对三个基准进行了实验: 常识性生成推理(CommonGen)(Lin等人,2020年),其中唯一的输入是a 表示概念的单词集和输出文本被限制为包括所有它们;端到端数据到文本(E2ENLG)(Dusek等人,2020), 其中的约束是指表示法 具有词汇化的属性和值 文本应该提到的;以及新奇的对象字幕 在尺度上(无上限)(Agrawal等人,2019),其中反约束是应该是突出的图像对象 在生成的标题中提到的。相比之下 在约束解码算法中,MF模型可以产生更高质量的约束满意度低的文本推理、运行时间和内存。以上提到的标识这是一种改进约束的一般机制吗 对未接受过预先训练和预先训练的人的满意度基于S2Stransfomer的模型。此外,我们的实验表明,MF模型可以满足该要求新的约束条件(i。e,涉及单词或短语在训练期间没有看到过),而且他们工作得很好, 涉及到低资源量的设置。我们的MF模型设置了一个新的这三个任务的最先进技术。

     2、背景

      在本文中,我们着重于约束基于文本生成的模型以及在各个领域的成功应用,特别是在大型规模的预训练语言模型中(Raffel等人, 2019年;Lewis等人,2020年)。以前的工作可以是 大致分为两类流: S2S训练方法受约束的解码方法

训练S2S模型

       可以隐式地捕获编码器和解编码器序列之间的共现,特别是预先训练的序列 如T5(Raffel等,2019)和BART (Lewis等, 2020).Wen等人(2015)使用一个特殊的门来控制在后续步骤中生成的信息。Kale和Rastogi(2020)已经显示了 T5模型达到了很先进的结果, 在各种从数据到文本的任务中,需要复制从编码器到解码器,经过微调之后。作为一个 替代方案,复制机制(Guetal,2016) 显式地学习在哪里复制输入约束通过添加一个额外的复制路径添加到输出中这些模型。然而,这些方法不能控制或保证它们的约束满足。Lin 等人(2020)也观察到较低的约束满意度在上述方法中,均与之相比较约束解码方法。

约束解码方法

         在这些算法中,在排除约束光束搜索(CBS)(德森等人,2017)和网格光束搜索 (GBS)(Hokamp和Liu,2017),保留了一套它们自己的k大小的级光束, 允许假设满足特定的约束条件, 在推理时应被考虑。每个CBS状态 对应于满足不同约束的假设(同约束数的指数分布),GBS状态对应于满足相同约束数的hy假设 (从线性关系到约束数)。巴拉克里希南等人。 (2019)Juraska等人(2018);Dusek和Jurcıcek(2016)也修改了他们的推理算法,  以类似的方式来满足特定的输出要求。 然而,他们显著地增加了推断运行时和内存,并可以产生次优的 产量。

3、模型方法

        本节首先制定受约束的文本生成器任务,然后介绍提名标识及其任务与基于transfomer的文本生成器的集成。

3.1 S2S 约束文本生成

       在S2S受限的文本生成任务中,我们给定编码器输入x = [x1,....., x_{l_{x}} ] ∈ X 它描述了这个任务,其中一些x_{i}对应着必须满足的词汇约束已生成的输出。在生成步骤t时,使用解码器 , 以迄今为止y_{:t }=生成的标记作为输入 [y1, · · · , yt ]∈Y,并生成下一个输出词项y_{t+1 } 。

3.2 提名标识(mention flag)

      在生成t步时,一组提名标识指示每个词汇约束是否已经存在, 我对这一步感到满意,在解码器输入中序列y_{:t })。在形式上,它们可以被定义为

m:X\timesY → {(0, 1, 2)}^{l_{x}}

其中|m(x,y_{:t})| = |x|。 具体来说,提名标识m(x,y_{:t})_{i} 是把标记x_{i}输入到x中

取值1和2表示约束的状态, 一旦y_{:t}满足约束条件,则为相应的提名标识的值从1更新到2。取值0是一个静态的默认值, 对所有词项没有受到任何约束,它们不要求在输出中被提名。这些通常充当模型的结构,一开始,提名标识m(x,ε)∈{0,1}, 其中ε是空的字符串,因为空字符串没有任何提名,m是单调在 y∗中:给定的解码器输入序列 y:t 和 y:(t+1), m(x,y_{:t})_{i}m(x,y_{:t+1})_{i}。提名标识对于任何词标签xi只能保持不变或从值1更新到值2。

举例:

     在图2中,给定编码器输入tokens   x=[name,Tetas,地区,南部,银行],我们 从m(x,ε)= [0,1,0,1,1]开始,因为name 和 area都不是词汇上的约束条件。在步骤4中,加入约束条件Tetas,is,located约束后,约束了Tetas, 因而值更新 m(x,[Tetas,is,located])=[0,2,0,1,1],因为 现在已经在当前提到了解码器输入序列[Tetas,is,located]。

多个词约束下值升级(Value Update for Multi-Word Constraints)

如下图2:

标题

 图2: 提名标识矩阵的一个例子。✓ 对于约束编码器输入标记,对于非约束的✗。名称和区域都以值开头 0,因为它们不是词汇约束的一部分。词汇约束从Tetas,south和bank开始值为1。提名标识被更新为值2 当 y:t 满足约束条件时。上提到的标志 对于多字约束,可以同时更新。

       如图2所示,提到标记的标志 对应于相同的约束条件,将被更新 一起. 给定编码器输入令牌 xi,···,xj, 形成一个多字约束,我们要求它m(x,y∗)i=···=m(x,y∗)j为所有(部分)输出y∗,和m(x,y:t)i =···= m(x,y:t)j = 2  iff ,xi,.......,xj在y:t中被提到 .   我们使用相关数据集的条款来确定 约束是否为多字约束。 这避免了错误的更新时,模型只 生成约束的前缀,而不是 完整的约束条件。例如,给定的约束条件 “洗衣机”,输出可以是“我把我的” 在新的洗衣机里清洗。”当洗涤和洗衣机都有词汇条件时,情况变得更加复杂。当我们找到这种情况时,我们就会延迟 值2更新洗涤,直到单词在 生成现代标记化方法,如 BPE(Sennrich等人[,2016),频繁的提出了这种情况.

提名定义(Definition of Mentions

        我们故意允许 在函数m()中提到的灵活概念。 我们可以定义各种类型的提及来实现 对不同的应用程序和任务的要求。 有了这种灵活性,最终用户可以在许多约束场景中使用男性标志。为任务设置 通过严格的约束,我们将提到量定义为 在y:t中的精确字符串匹配 .否则,偏转 在检查提到时,允许词汇反约束中单词的变体或同义词。 我们提到标记机制因此支持多个语言的词汇约束。We 留下更复杂的约束条件(例如,使用 NLP解析器)到未来的工作。  

提名标识矩阵(Mention Flag Matrix)

       Given x, y:t , We define the two-dimensional Mention Flag Matrix F ∈ 106 {0, 1, 2} lx×t as follows:

      在训练期间,给定x和地面真实输出 Y gt(使用lgt令牌),我们可以构造地面真值提到标记矩阵F gt ∈ {0, 1, 2} lx×lgt由 在中的词汇约束条件中寻找标记的提及位置 gt .F gt遵循与解码器输入标记y:t相同的掩码策略 .For 其对应的词汇约束的标记 与Y没有一致 gt,他们提到的旗帜。

提名标识工作原理(Why Mention Flags work)

         在MF模型训练期间,实际样本总是具有所有的MFs 在停止生成之前设置为“已停止” (i.e,在生成EOS令牌之前)。在完成生成之前这提供了一个强烈信号满足所有的约束。该值从1更新到2 在MF中提供了隐式信号 在训练过程中满足了约束条件。否则, 该模型必须通过输入序列之间发生的共同子序列来学习这些信息 和输出序列。这两个信号允许模型实现高约束满意度和帮助保持高文本质量(sec。4.5).Since 只有3个添加的嵌入,学习可以 不需要大量的培训数据 秒4.7).由于这些嵌入是独立于特定词汇约束的,我们期望 在新的约束条件上的表现,没有被看到 在训练期间,被改进(sec。4.5).

3.3  S2S和Transfomer整合(integration with S2S Transformer)

        如图3所示,我们注入了提及标志 进入Transformer器解码器。,我们首先回顾一下 在瓦斯瓦尼提出的标准S2STransformer等人。(2017),然后讨论如何注入提及 将信息标记到S2S transformer模型中。

标准S2S transfomer模型(Standard S2S Transformer Mode)

       在编码器输入标记x被输入变压器 编码器h e=环境条件(x),其中h e ∈ R lx×d 和d是 模型隐藏的大小。

 Figure 3: In each decoder layer, the Cross-Attention (CA) module (light blue) integrates Mention Flags as additional inputs describing relationship between encoder contents and decoder input tokens. There are separated representations for Mention Flags in different decoder layers.

注意力(CA)是编码器输出h之间的 h_{e}y_{:t} :

其中h_{t}^{d}= SA (y:t).  KV是Vaswani等人提出的标准关键值自关注(2017).   CA输出CA( h_{t}^{d}, h^{e} )进一步决定了经过前馈传播后模型的输出y_{t+1} 层,残余连接和软max层。KV是Vaswani等人提出的标准关键值自关注。

合并提名标志矩阵Incorporating Mention Flag Matrix)

        我们的 二维提及标志矩阵 F ∈ {0, 1, 2} lx×t 与编码器输出的不变量相关联 e 和电流解码器 输入y:t .最好的方法是合并 全F矩阵成为变压器中的一个分量 解码器我们注意到,CA模块在 变压器解码器已经使用y:t作为查询 和h e 作为关键字。结果的查询键相似性 矩阵和我们提到的标志有相同大小的矩阵 矩阵,使其适合加入F。

提名标示矩阵作为相关位置(Mention Flag Matrix as Relative Position)

       在Shaw等人[](2018)中 令牌相对位置放到SA模块中,我们 建议注入提及标志作为“相对” 在编码器输出h之间的“位置” e 和电流 解码器输入y:t 在CA模块中。Ek, Ev ∈ R 3×d 是否有提到标志的嵌入 乘法表mk 和mv∈ lx×t×d .我们已经分开了 为每个解码器的标志表示 层Eq.

其中R是相对的自我注意函数 位置,定义如下: 

 作为将F表示为mk的替代方法 m^{k}m^{v} , 我们可以按照这个方法找到相对的位置 在T5模型中(Raffel等人[,2019年),并代表 F作为添加到相应的标量在等式中登录e_{i,j}在方程7用于计算注意力 重量然而,我们发现这个标量方法较少 比我们在第二秒中提出的要有效(见4.6节).

4、 实验

        我们在三个基准测试上进行了实验 不同形式的约束,包括常识生成推理(通用)(Lin 等人。,2020年)与关键字约束,端到端 餐厅对话框(E2ENLG)(Dusek等人,2020) 具有关键值约束,以及大规模的新对象上限(无上限)(Agrawal等人,2019)与 视觉对象的单词约束。我们将男性标志与三层标准S2S反式前模型(Trans,L3)集成(Vaswani等人,2017) 和预先训练过的T5模型(Raffel等人,2019年) 每个任务。T5模型达到了最先进的水平 结果在各种数据到文本任务(Kale和Rastogi,2020)。对于T5-Base和T5-Large型号, 我们使用T5模型的实现 工作面变压器2 .Trans,L3模块共享相同的5-碱基的实现 模型,除了它没有初始化前训练参数初始化,它只使用3层,相反 超过12层,均为编码器和解码器。T5解码器的层。这个参数是冻结的 技术应用于两个T5基线模型 以及我们所有实验中的MF模型。We 报告所有任务的约束满意度。是我们使用的方法 通用生成任务中的GBS(最多5个约束) 和CBS在E2ENLG(max 1约束)和 Nocaps(最多2个约束)任务。

4.1 普通生成(CommonGen)

        在这个任务中,编码器的输入是一个序列 概念C,=[c1,···,ck],k≤5。中的模型 应该产生一个连贯的句子来描述所有的东西吗 C.       m(C,ε)=[1,1,··,1]和m中的概念 允许屈折变体满足词汇的约束。我们训练(微调)反式,L3,T5-Base 和t5-大模型作为我们的基线。我们的应用 提到T5-Base和T5-大型号的标志 (+ MF).遵循Lin等人的建议。 (2020),我们报道了CIDEr(Vedantam等人,2015) 和香料(andrerson等人,2016)生成 文本质量指标。我们计算约束满足所有约束(ALL),新的约束 (新颖)和可见的约束(见)。

 Table 1: Experiment Results on CommonGen Test Split. The T5-Base + MF model achieves high text quality with high constraint satisfaction. G for GBS. ♣ results taken from Lin et al. (2020). Bold is the highest score and underline is the second highest score.

结果(Results)

         表1显示,MF模型证明了基线的约束满足 对于所有情况,达到接近100%(即。, 99.6% 和99.[]1%)。值得注意的是,提到的旗帜提高了小说 约束满足程度为2。值为3%至49。中的2% 随机初始化的变压器模型。Com公司与公司合作(Gu等人,2019年)和Con- 108 (Susanto等人[],2020)模型,我们的Trans, L3 + MF模型实现更高的密度和香料 约束满意度得分4。低于1% 非自回归的康斯特利文模型。While GBS提供了一种最大化约束满足派系的方法。,100%),这样做会显著降低其性能 输出的文本质量(超过50个CIDEr)。Our MF模型在提高文本质量的同时实现了接近最优约束(5。7文明工程 T5分和6分的分数有所提高。5文明的分数 改善T5-大尺寸)。最后,我们的T5-Large + MF模型优于以前的最先进的技术 结果(Liu等人,2021),将eptNet(Speer等人,2017)集成到BART模型中, 由6。5CIDEr和0。7sppce,表明前训练的语言模型可能 为此任务提供足够的信息。

4.2 E2ENLG

         在这个任务中,编码器的输入是一个序列 键值表示表示C= [k1, v1, · · · , kn, vn], n ≤ 8.,我们列出了所有给定的信息 空格值信息作为以空格分隔的字符串。 m(C,ε)=[0,1,0,1,···,0,1]和m允许同缩义词满足词汇约束。,例如, 欢迎孩子和家庭友好都是 提到了家庭友好型的[是的]。模型必须: 对编码器中的所有键值对生成流畅连贯的对话响应。中的E2ENLG排除了79个不同的域内密钥值约束。 我们使用Dusek等人的(2019)的脚本 3 向 为这些输入构造同义词集。We 使用Trans、L3和T5-Base模型作为我们的基线。 我们使用CBS来约束T5模型来满足 所有缺失的约束条件(T5-Base + C)。我们报告 NIST(Lin和Hovy,2003),BLEU (Papineni等人, 和流星(班纳吉和拉维,2005年)作为 它们是评估质量的常用指标 在E2ENLG输出中的长文本(超过20个 词)

结果(Results)

https://github.com/tuetschek/ e2e-cleaning/blob/master/slot_error.py

          表2显示,与基线模型相比,低的MF模型始终获得更高的输出文本质量和低约束满意度(99。9% 对抗95.值分别为1%和100% vs。96.6%).CBS有所改进 5模型的约束满意度,但不影响文本质量(0。有3个蓝色点数 下方的Shen等人(2019),艺术的前身,通过受认知科学启发的复杂发言人听众方法训练模型。 有一个更简单的模型架构(S2S),我们的 T5 + MF模型达到了完全的约束满足 并比Shen等人(2019)高出0.2 NIST 和0.3 METEOR。

4.3 nocaps

Using T5 for Image Captioning

        在图像帽中,每个输入图像由视觉对象表示。每个这些对象 (由对象检测器)分配了一个文本标签。编码器的输入是一个序列 对象,后面跟着相同的文本标签C= [v 1 1 , · · · , v s1 1 , l1, · · · , v 1 k , · · · , v sk k ,lk]v ∗ i 是 视觉特征向量(类似于Li中的那个 等人[](2020年))和li 是对应的文本 标签视觉特征的使用方式相同 T5模型中的正常文本标记。We 发现这种方法对nocaps和 标准的COCO图像字幕任务。

Experiment Setup

         传统的图像字幕 模型选择并描述输入对象的一个子集 联合研究(Anderson等人,2018)。然而,Puduppully等人(2019)显示了分离的好处 生成常规数据到文本任务的内容选择和文本规划步骤。据此,我们建议 首先选择显著的对象并合并 选择的对象到描述中使用提到 旗帜上的人。m (C, ε) = [0, 0, · · · , 1, · · · , 0, 0, · · · , 1] 其中,只有显著的对象标签接收到的值为1。 m()允许屈折变异体满足词汇量的要求 强制我们在这个实验中使用5基模型。T5+C和T5 + MF + C型号 受到CBS的限制。跟随Wang等人。 (2021),我们报告CIDEr和SPICE作为输出文本 质量指标和约束满意度的小说 约束(新约束)和所有约束(ALL)。We 展示所有评估图像的性能 (总的来说)和为具有挑战性的图像与 只有新对象(域外拆分)。

Salient Object Selector

        我们使用基于变压器的显著对象检测器来选择一个子集 对象标签标记为词法约束。首先提供检测到的图像对象的视觉代表不满 到三层标准变压器模型与的任何位置嵌入我们使用二进制交叉熵损失来训练这个目标 所有检测到的输入对象。项目中的训练数据 显著的目标检测是没有帽的训练数据。我们使用COCO 2017 Dev集作为评估 用数据集来选择最佳的检查点。

 Results

       提到旗帜在几乎所有情况下都能达到最优的约束满意度。在反式部分,L3 + MF模型显示标记的证明(即[]。,从16岁开始。值为3%至49。3%)的小说 约束,尽管对应的标记嵌入没有从他们的 随机初始化。生成的文本质量 也有改进,特别是在域外 分裂T5+C型号为0。3的香料含量都较低 总体上和域外分裂比T5 + MF更大 模型,表明MF模型正确地限制了更多的长期关系(由 在香料中使用的解析树 对象比CBS要多。我们的T5 + MF模型更好 现有的最先进的端到端单个阶段 图像字幕系统(Agrawal等人[],2019;Li 等人[],2020;Wang等人[],2021),通过1。3CIDEr和 0.1香料在验证集和1。7CIDEr和 0.2香料在测试集中,显示出优势 我们的两阶段字幕模型是由 提及标志。而VIVO+C(Hu等人[],2020)则不是 具有可比性,因为它使用了额外的视觉文本对齐 训练数据最后,我们研究了相对的 对nocaps的约束满意度较低(98。3%与。 99.5+%)与其他模型的MF模型相比 两个任务,发现经常丢失的情况 发生在包含两个约束的)(近)同义词(例如,骡子和马)和 b)的下名称(例如,热狗和快餐)。更 先进的突出目标探测器可以解决这个问题 问题

4.4 模型有效性(Model Efficiency)

       MF模型使用标准的波束搜索和运行 用更少的内存比受约束的内存要快得多 波束搜索算法。为了进行比较,我们选择了GBS算法,因为它的资源使用是 与约束条件的数量呈线性关系,且使用量较少 运行时间和内存都比CBS要多。我们运行MF 模型和使用GBS的模型使用光束大小 5,并比较它们的运行时间(RT)和内存 表4中的要求(#M)。与MF相比 模型中,GBS运行一到两个数量级 以较慢的速度运行,并使用4.4到23.4倍。与T5-Base模型相比,MF模型 只会略微增加推理时间。

 4.5 主要结果讨论(Main Result Discussion)

约束满意度和文本质量(Constraint Satisfaction & Text Quality)

        总共 在任务中,MF模型提高了文本质量基线(包括CBS和GBS),同时实现约束满意度接近100%。 这支持了3.2节中的主张。该节训练的符号来自提到标志的信号可以帮助改善约束满意度和文本质量。

非预训练和预训练模型(Non-Pre-trained vs. Pre-trained Models)

       所有的任务中,提到标志也有类似的效果(更高 文本质量和约束满意度)的非预训练和预训练模型。这表明 该提及标志并不依赖于来自 预先训练好的模型要有效。

新颖约束(Novel Constraints)

         在通用的和没有帽的任务中,Trans,L3 + MF模型取得了很大的效果 更高的覆盖率(即。, 2.值为3%至49。普通世代的值为2%;16岁。值为3%至49。为3%)的约束条件 比基线模型有新的词汇项目。 在这里,MF模型可以满足新的约束条件, 即使相应的标记表示没有接收到任何训练信号。作为男性的标志与模型表示解耦, MF模型学习词汇独立的籼词来提到新词。

4.6 提名标识的设计选择(Design Choices for Mention Flags)

        我们进行了以下选择的实验 提及标志:静态MF,其中值2(为男性)和1(未提及)被合并;合并 合并值0(不是约束)的MF 值为1;标量MF 表示为标量添加到注意力日志在CA模块;和共享MF在所有 解码器层使用相同的提到标志嵌入消息。我们应用静态MF,标量MF和共享 MF到所有三个任务。我们只使用合并后的MF 因为通用模型 不包括值0和一个nocaps模型没有 值0不能区分受约束的和 非受约束的对象。如表5所示,在 通用任务和无帽任务,静态MF 模型获得的约束满意度要低得多, 值分别为99.6%对94.5%,98.3%对87.2% 。从值1到值2的显式更新需要高约束满意度。合并后的服务对象 MF模型产生较低的约束满意度 (100%至98岁。9%)和生成的文本质量(68.3 到67.7 BLEU) 在E2ENLG中,表示 在此任务中,值为0的效用。与MF相比 模型,标量MF模型产生较低的约束 通用和上限任务的满意度 (值为99.6%至97.1%,  值分别为为98.3%至91.5%) 以及在所有三个任务中生成的低质量文本 (1.2蓝色,3。2CIDEr和0。6环低)。代表讨厌提到旗帜作为键和值密集向量比标量更好。最后,使用 在所有解码器层之间的共享MF均为负值 影响(例如,所有约束满意度比率下降) 在所有三个任务中。

4.7 小资源学习( Low-Resource Learning)

       我们进行了以下选择的实验 提及标志:静态MF,其中值2(为男性)和1(未提及)被合并;合并 合并值0(不是约束)的MF 值为1;标量MF 表示为标量添加到注意力日志在CA模块;和共享MF在所有 解码器层使用相同的提到标志嵌入消息。我们应用静态MF,标量MF和共享 MF到所有三个任务。我们只使用合并后的MF 因为通用模型 不包括值0和一个nocaps模型没有 本节显示,提到标志仍然使用来提高约束满意度和 生成文本质量时与许多 更少的实例。我们分别为使用0.1%,1%和10% 为原始训练实例的训练模型。在前两个任务中(E2ENLG和通用协议)中, 我们将MF模型与T5-Base模型进行了比较。在nocaps任务中,我们另外比较了T5- Base + MF模型与T5-Base + C模型。We 报告E2的BLEU 和帽子。如表6所示,MF模型 持续地生成更高质量的文本(更高质量的文本 流星或评分),并获得比基线模型更高的约束满意度。The MF模型达到97+% E2ENLG和通用培训数据的10%。这证实了我们在Sec中的声明。3.2说,这三个人 添加的提到标志嵌入可以学习 而训练数据相对较少。

4.8 质量分析(Qualitative Analysis)

        我们选择了三个有代表性的例子来成功地使用提名标志(表7)  .i)与基线和约束应变解码模型相比,MF模型生成最简洁的数据日志响应;)MF模型为 只有生成满足所有输入约束的流畅一致的模型;)MF 模型是唯一能准确描述的模型 蜜蜂和花之间的关系,接地 到输入的图像和约束条件。

 人类的评估(Human Evaluation)

        我们已经证明,我们的假设MF模型可以实现更高的约束分布比和自动指标。然而,的 自动度量标准并不一定反映人类 对所生成的文本的首选项。因此,我们从t5基线和 我们的MF模型在所有三个任务中(总共300个)。对每个样本对,我们要求三个注释者来判断 哪个样本“更像人类”。表8显示了 我们的MF模型有70%的产出以上 一般比与之更好或相似的输出 基线模型,验证了我们的输出质量 MF模型。

 5 结论与未来工作(Conclusion and Future Work)

      在本文中,我们提出通过将提及状态嵌入到文本解码器中来实现基于文本转换器的文本生成器的提及标志。我们在三个不同任务上的广泛实验 已经显示了提到旗帜的有效性吗 保持高生成的文本质量和excel提供了约束满意度,比较良好 到竞争的约束解码算法。我们计划扩大提及旗帜i)来控制 较大的输入源文本,如受约束的文本 总结和机器翻译;)到更大的粒度,如句子级。

致谢

我们感谢匿名审稿人对改进本文提出的深刻建议。本研究是由自然语言理解聚焦计划谷歌奖支持,该奖由MQ卓越研究的学者和CSIRO的DATA61高端奖学金设立而成, 并根据澳大利亚研究委员会发展项目基金资助计划(项目编号 DP160102156)。

猜你喜欢

转载自blog.csdn.net/zql1009/article/details/131147219