【自然语言处理 | Language Models】Language Models 常见算法介绍合集(九)

一、ERNIE-GEN

ERNIE-GEN 是一个多流序列到序列预训练和微调框架,它通过填充生成机制和噪声感知生成方法弥合了训练和推理之间的差异。 为了使生成更接近人类书写模式,该框架引入了逐个跨度的生成流程,该流程训练模型连续预测语义完整的跨度,而不是逐个单词地预测。 与现有的预训练方法不同,ERNIE-GEN采用多粒度目标采样来构造预训练数据,增强了编码器和解码器之间的相关性。

在这里插入图片描述

二、Sandwich Transformer

三明治变压器是变压器的一种变体,它对架构中的子层进行重新排序以实现更好的性能。 重新排序是基于作者的分析,即对底部有更多自注意力、对顶部有更多前馈子层的模型总体上往往表现更好。

在这里插入图片描述

三、DeLighT

DeLiGHT 是一种 Transformer 架构,它通过以下方式实现参数效率改进:(1) 在每个 Transformer 块内使用 DExTra(一种深度轻量级转换),允许使用单头注意力和瓶颈 FFN 层,以及 (2) 使用块跨块 明智的缩放,允许在输入附近使用更浅和更窄的 DeLighT 块,在输出附近使用更宽和更深的 DeLighT 块。

在这里插入图片描述

四、PAR Transformer

PAR Transformer 是一种 Transformer 模型,它使用的自注意力块减少了 63%,并用前馈块取代,同时保留了测试精度。 它基于 Transformer-XL 架构,并使用神经架构搜索来查找 Transformer 架构中的有效块模式。

在这里插入图片描述

五、ConvBERT

ConvBERT 是 BERT 架构的修改版,它使用基于跨度的动态卷积来代替自注意力头来直接对局部依赖关系进行建模。 具体来说,一个新的混合注意力模块取代了 BERT 中的自注意力模块,它利用卷积的优势来更好地捕获局部依赖性。 此外,还使用了一种新的基于跨度的动态卷积运算,以利用多个输入标记来动态生成卷积核。 最后,ConvBERT 还融入了一些新的模型设计,包括瓶颈注意力和前馈模块的分组线性算子(减少参数数量)。

在这里插入图片描述

六、Enhanced Seq2Seq Autoencoder via Contrastive Learning(ESACL)

ESACL(通过对比学习增强型 Seq2Seq 自动编码器)是一种通过对比学习进行去噪的序列到序列 (seq2seq) 自动编码器,用于抽象文本摘要。 该模型采用标准的基于 Transformer 的架构,具有多层双向编码器和自回归解码器。 为了增强其去噪能力,将自监督对比学习与各种句子级文档增强相结合。

在这里插入图片描述

七、Multi-Heads of Mixed Attention

混合注意力的多头结合了自我注意力和交叉注意力,鼓励对各种注意力特征中捕获的实体之间的交互进行高级学习。 它由多个注意力头构建,每个注意力头都可以实现自我注意力或交叉注意力。 自注意力是指关键特征和查询特征相同或来自相同的领域特征。 交叉注意力是指关键特征和查询特征是由不同的特征生成的。 MHMA 建模允许模型识别不同域的特征之间的关系。 这在涉及关系建模的任务中非常有用,例如人与物体交互、工具与组织交互、人机交互、人机界面等。

在这里插入图片描述

八、RealFormer

RealFormer 是一种基于剩余注意力思想的 Transformer。 它将跳跃边缘添加到主干 Transformer 中以创建多个直接路径,每个路径对应一种类型的注意力模块。 它不添加参数或超参数。 具体来说,RealFormer 使用 Post-LN 风格的 Transformer 作为主干,并添加跳边来连接相邻层中的多头注意力模块。

在这里插入图片描述

九、Sinkhorn Transformer

Sinkhorn Transformer 是一种使用稀疏 Sinkhorn Attention 作为构建块的变压器。 该组件是密集全连接注意力(以及局部注意力和稀疏注意力替代方案)的插件替代品,并允许降低内存复杂性和稀疏注意力。

在这里插入图片描述

十、SongNet

SongNet 是一种基于 Transformer 的自回归语言模型,用于严格格式文本检测。 符号集经过专门设计,可提高建模性能,尤其是在格式、韵律和句子完整性方面。 改进了注意力机制,以促使模型捕获有关格式的一些未来信息。 设计了预训练和微调框架以进一步提高生成质量。

在这里插入图片描述

十一、Funnel Transformer

漏斗变压器是变压器的一种,它逐渐将隐藏状态序列压缩为更短的序列,从而降低计算成本。 通过将长度减少所节省的 FLOP 重新投入到构建更深或更宽的模型中,模型容量进一步提高。 此外,为了根据常见预训练目标的要求执行令牌级预测,Funnel-transformer 能够通过解码器从简化的隐藏序列中恢复每个令牌的深度表示。

所提出的模型保持由残差连接和层归一化包裹的交错 S-Attn 和 P-FFN 子模块的相同整体骨架。 但不同的是,为了实现表示压缩和计算减少,该模型采用了一个编码器,随着层的加深,该编码器逐渐减少隐藏状态的序列长度。 此外,对于涉及每个令牌预测(例如预训练)的任务,使用简单的解码器从压缩编码器输出中重建令牌级表示的完整序列。 压缩是通过池化操作实现的,

在这里插入图片描述

十二、Transformer Decoder

Transformer-Decoder 是针对长序列的 Transformer-Encoder-Decoder 的修改,它删除了编码器模块,将输入和输出序列组合成单个“句子”,并作为标准语言模型进行训练。 它用于 GPT 及其后续版本。

十三、SC-GPT

SC-GPT 是一个多层 Transformer 神经语言模型,分三个步骤进行训练:(i)在纯文本上进行预训练,类似于 GPT-2; (ii) 对大量对话行为标记话语语料库进行持续预训练,获得可控生成的能力; (iii) 使用非常有限数量的域标签针对目标域进行微调。 与 GPT-2 不同,SC-GPT 生成以给定语义形式为条件的语义控制响应,类似于 SC-LSTM,但需要更少的域标签来泛化到新域。 它在大量带注释的 NLG 语料库上进行预训练,以获得可控的生成能力,并仅用少数特定领域的标签进行微调以适应新领域。

在这里插入图片描述

十四、Chinese Pre-trained Unbalanced Transformer

CPT,即Chinese Pre-trained Unbalanced Transformer,是用于中文自然语言理解(NLU)和自然语言生成(NLG)任务的预训练不平衡Transformer。 CPT由三部分组成:共享编码器、理解解码器和生成解码器。 具有共享编码器的两个特定解码器分别通过掩码语言建模(MLM)和去噪自动编码(DAE)任务进行预训练。 通过部分共享的架构和多任务预训练,CPT 可以(1)使用两个解码器学习 NLU 或 NLG 任务的特定知识,(2)灵活微调,充分发挥模型的潜力。 具有共享编码器的两个特定解码器分别通过掩码语言建模(MLM)和去噪自动编码(DAE)任务进行预训练。 通过部分共享的架构和多任务预训练,CPT 可以(1)使用两个解码器学习 NLU 或 NLG 任务的特定知识,(2)灵活微调,充分发挥模型的潜力。

在这里插入图片描述

十五、BinaryBERT

BinaryBERT 是 BERT 的变体,以权重二值化的形式应用量化。 具体来说,提出了三元权重分割,通过从一半大小的三元网络进行等效分割来初始化 BinaryBERT。 为了获得 BinaryBERT,我们首先训练半尺寸的三元 BERT 模型,然后应用三元权重分割算子来获得潜在的全精度和量化权重,作为全尺寸 BinaryBERT 的初始化。 然后,我们对 BinaryBERT 进行微调以进一步细化。

在这里插入图片描述

十六、Adaptively Sparse Transformer

自适应稀疏变压器是变压器的一种。

在这里插入图片描述

十七、Feedback Transformer

反馈变压器是一种顺序变压器,它将所有先前的表示暴露给所有未来的表示,这意味着当前时间步长的最低表示是由过去的最高级别抽象表示形成的。 这种反馈性质允许该架构执行递归计算,在先前的状态上迭代地构建更强的表示。 为了实现这一目标,标准 Transformer 的自注意力机制被修改,以便它关注更高级别的表示而不是较低的表示。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/133105141
今日推荐