《预训练周刊》第30期:谷歌首次展示新版语言模型BERT,参数达4810亿个

关于周刊
本期周刊,我们选择了9篇预训练相关的论文,涉及文本更正、模型适配、实体标记、视频理解、三维建模、行人识别、医学实体识别、分子分布和目标检测的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍大语言模型方面的一些最新内容。最后,在资源推荐方面,我们选择了1篇预训练资源,将介绍生物医学实验方面的一些最新资源。
本期贡献者:申德周 翟珂 吴新刚
文章来源:智源社区

论文推荐

标题:伊利诺伊大学、微软|COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining(COCO-LM:用于语言模型预训练的更正和对比文本序列)
作者:Yu Meng、Jiawei Han、Xia Song等
简介:本文提出了一种自然语言理解的预训练模型。作者提出了一个自监督学习框架COCO-LM,它通过纠正和对比损坏的文本序列来预训练语言模型。下列的ELECTRA 式的预训练,COCO-LM采用了辅助语言模型破坏文本序列,在此基础上构建两个新的预训练任务主要型号。第一个符号级任务,纠正语言建模,是检测并纠正辅助模型替换的符号,以便更好地捕获符号级语义。第二个序列级任务,序列对比学习,是对齐源自相同源输入的文本序列,同时确保表示空间的一致性。在GLUE和SQuAD上的实验证明COCO-LM不仅优于最近最先进的预训练模型的准确性,也提高了预训练效率。它实现了MNLI、ELECTRA的准确率及其50%的预训练 GPU小时数。在标准基础/大型模型的预训练步骤中,COCO-LM优于以前的最佳模型GLUE平均1+分。
论文地址:https://www.aminer.cn/pub/602e32a291e01144a29ccc50?f=cs

标题:MIT、Meta AI|Quantifying Adaptability in Pre-trained Language Models with 500 Tasks(量化具有 500 个任务的预训练语言模型的适应性)
作者:Belinda Z. Li, Jacob Andreas等
简介:本文研究了预训练语言模型的迁移性能。当语言模型适应执行新任务,任务的哪些方面可以预测模型的最终性能?在NLP中,LM泛化到单个例子的系统特征,得到了很好的表征,但LM对新的系统适应性方面任务,几乎没有那么好理解。作者对LM适应性的特征和限制进行大规模实证研究新的基准测试,TASKBENCH500,由500个程序生成的序列建模任务。这些任务结合了以下语言处理核心方面,包括词汇语义、序列处理、记忆、逻辑推理和世界知识。使用TASKBENCH500,作者评估了以下三个方面适应性,发现:(1)适应程序的记住小数据集能力差异很大;(2)在一个任务类型子集内,适应程序表现出对复杂任务的组合适应性;和(3)未能匹配训练标签分布,由预测单个标签的内在困难中的不匹配来解释。作者的实验表明,对新任务的适应性,像对新例子的泛化,可以被系统地描述和理解。
代码地址:https://github.com/belindal/TaskBench500
论文地址:https://www.aminer.cn/pub/61aed0dc5244ab9dcb3a776b?f=cs

标题:香港科技大学、阿里巴巴 | NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging(低资源实体标记的预训练模型)
作者:Zihan Liu, Feijun Jiang, Yuxiang Hu,等
简介:本文研究利用预训练语言模型解决数据稀疏的命名实体识别问题。当大型训练数据集不可用于低资源域时,命名实体识别模型通常表现不佳。最近,大规模语言模型的预训练成为应对数据稀缺问题的一个有前途的方向。然而,语言建模和NER任务之间的潜在差异可能会限制模型的性能,并且很少研究 NER 任务的预训练,因为收集的NER数据集通常或大或小但质量低下。在本文中,作者构建了一个质量相对较高的海量NER语料库,并基于创建的数据集预训练了NER-BERT模型。实验结果表明,作者的预训练模型在九个不同领域的低资源场景中可以显着优于BERT以及其他强基线。此外,实体表示的可视化进一步表明了NER-BERT对各种实体进行分类的有效性。
论文地址:https://www.aminer.cn/pub/61a839665244ab9dcbb15003?f=cs

标题:上海AI LAB、复旦大学、微软 | BEVT: BERT Pretraining of Video Transformers(视频转换器的BERT预训练)
作者:Rui Wang, Dongdong Chen, Zuxuan Wu,等
简介:本文研究了视频转换器的BERT预训练。鉴于 BERT 图像变换器预训练最近取得的成功,作者引入了 BEVT:将视频表示学习解耦为空间表示学习和时间动态学习。在 Kinetics 400 上,其识别主要依赖于区分性空间表示,BEVT 实现了与强监督基线相当的结果。在包含依赖时间动态的视频的Something-Something-V2 和Diving 48 上,BEVT 的表现明显优于所有替代基线,并分别以 70.6% 和 86.7% 的 Top-1 准确率实现了最先进的性能。对于识别主要依赖于区分性空间表示,BEVT 实现了与强监督基线相当的结果。在包含依赖时间动态的视频的Something-Something-V2 和Diving 48 上,BEVT 的表现明显优于所有替代基线,并分别以 70.6% 和 86.7% 的 Top-1 准确率实现了最先进的性能。对于识别主要依赖于区分性空间表示,BEVT 实现了与强监督基线相当的结果。在包含依赖时间动态的视频的Something-Something-V2 和Diving 48 上,BEVT 的表现明显优于所有替代基线,并分别以 70.6% 和 86.7% 的 Top-1 准确率实现了最先进的性能。
论文地址:https://www.aminer.cn/pub/61a98b065244ab9dcb9585bf?f=cs

标题:清华、北大 | Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling(以遮盖点建模、对3D点云Transformer进行预训练)
作者:Xumin Yu, Lulu Tang, Yongming Rao, 等
简介:作者研究将BERT的概念推广应用到三维点云的新学习范式。受BERT的启发,作者设计了一个遮盖点建模任务来预训练点云Transformer。具体地作者首先将点云进行分割,得到若干局部点云,并通过一个离散变分自动编码器(dVAE)进行局部点云的离散编码。通过该步骤,点云被表示为若干个离散编码。然后,作者随机屏蔽一些输入点云,并将它们输入主干Transformer。预训练的目标是预测屏蔽位置的局部点云离散编码。大量实验表明:所提出的BERT风格的预训练策略显著提高了标准点云Transformer的性能。通过本预训练策略,实验证明标准Transformer在ModelNet40上达到93.8%的准确率,在ScanObjectNN的最难设置上达到83.1%的准确率,用更少的手工设计和人为先验超过了精心设计的点云模型。作者还证明,Point-BERT学习到的特征表示可以很好地转移到新的任务和领域,模型提高了小样本点云分类任务的最新水平。
代码地址:https://github.com/lulutang0608/Point-BERT
论文地址:https://www.aminer.cn/pub/61a596985244ab9dcbe00d67?f=cs

标题:阿里巴巴 | Self-Supervised Pre-Training for Transformer-Based Person Re-Identification(基于 Transformer 的行人再识别的自监督预训练)
作者:Hao Luo, Pichao Wang, Yi Xu,等
简介:本文主要从数据和模型角度来研究如何减小预训练数据与ReID数据域差异对Transformer-based行人重识别任务的影响。基于ImageNet强监督预训练的 Transformer-based行人重识别(ReID)方法最近取得了很好的进展,逐渐在性能上超越了CNN-based的方法。然而,由于ImageNet 和 ReID 数据集之间的巨大域差距以及 Transformer 强大的数据拟合能力,基于Transformer的方法通常需要更大的预训练数据集来提升性能。为了应对这一挑战,本研究旨在分别从数据和模型结构的角度缩小预训练和 ReID 数据集之间域差异带来的影响。作者在大规模的无标签行人图像数据集对 Vision Transformer进行自监督学习预训练,实验发现该预训练范式明显优于ImageNet 监督预训练。经过在监督学习、无监督域适应和无监督学习设置下微调预训练模型的大量实验,作者在不损失性能的前提下将 LUPerson 数据集缩小到 50%。最后作者在 Market-1501 和 MSMT17数据集 上实现了最先进的性能。
论文地址:https://www.aminer.cn/pub/619dad545244ab9dcb27bcea?f=cs

标题:清华、北大、华盛顿大学等 | GraphPrompt: 使用基于图的提示模板的生物医学实体规范化(GraphPrompt: Biomedical Entity Normalization Using Graph-based Prompt Templates)
作者:Jiayou Zhang, Sheng Wang等
简介:生物医学实体的规范化有助于生物医学实验和研究的语言的统一,并进一步获得生命科学的整体观点。目前的方法主要集中于比较标准化的实体,如疾病和药物的规范化,而忽略了比较模糊但关键的实体,如通路、功能和细胞类型,这阻碍了它们的应用。针对此本文首先引入了一个由专家策划的数据集OBO-syn,其中包括70种不同类型的实体和200万个策划的实体-同义词对。为了利用这个数据集的独特的图结构,本文提出了GraphPrompt,一种基于提示的学习方法,根据图创建提示模板。Graph-Prompt在零样本和小样本场景上分别获得了41.0%和29.9%的改进,表明这些基于图的提示模板的有效性。本文设想,GraphPrompt和OBO-syn数据集可以广泛地应用于基于图的NLP任务,并作为分析多样化的生物医学数据的基础。
论文地址:https://www.aminer.cn/pub/61aed0d85244ab9dcb3a723c?f=cs

标题:多伦多大学 | 保持简单:语言模型可以学习复杂的分子分布(Keeping it Simple: Language Models can learn Complex Molecular Distributions)
作者:Daniel Flam-Shepherd, Kevin Zhu, Alán Aspuru-Guzik
简介:预训练的分子深度生成模型往往被用来搜索化学空间,评价其在新功能化合物的逆向设计中的下游效用的标准往往取决于它们学习分子训练分布的能力。在生成模型中,最简单的语言模型采用了循环神经网络,用字符串表征生成分子;更复杂的图生成模型按顺序构建分子图,通常能取得最先进的结果。然而,最近的工作表明,语言模型的能力比曾经认为的更强,特别是在低数据体系下。在这项工作中,作者研究了语言模型学习分子分布的能力。为此,本文引入了三个具有挑战性的需要编译特别复杂的分子分布的生成性建模任务,惩罚性LogP任务、多分布任务和大型任务。在每个任务中,本文将语言模型的能力与两个广泛使用的图生成模型相比较进行评估。结果表明,语言模型能够熟练地学习复杂的分子分布,并产生比图模型更好的性能。
论文地址:https://www.aminer.cn/pub/61aed0d85244ab9dcb3a7270?f=cs

标题:浙江大学 | 低样本目标检测的深度学习综述(A Survey of Deep Learning for Low-Shot Object Detection)
作者:Qihan Huang, Mingli Song等
简介:目标检测是计算机视觉和图像处理的一项基本任务。虽然基于深度学习的目标检测器在丰富的标记数据下取得了很大的成功,但是当训练数据有限时,物体检测模型很容易过拟合。因此,有必要在物体检测中引入小样本学习和零样本学习,可以一起命名为低样本目标检测。低样本物体检测(LSOD)旨在从少数甚至零标记的数据中检测物体,它可以分为小样本物体检测(FSOD)和零样本目标检测(ZSD)。本文对基于预训练和深度学习的FSOD和ZSD进行了全面综述,主要包含三部分,首先将FSOD和ZSD的方法分为不同类别,并讨论了它们的优点和缺点;其次回顾了FSOD和ZSD的数据集设置和评估指标,然后分析了不同方法在这些基准上的表现;最后讨论了FSOD和ZSD的未来挑战和有希望的方向。
论文地址:https://www.aminer.cn/pub/61aed0d85244ab9dcb3a7129?f=cs

研究动态

标题:谷歌首次展示新版语言模型BERT,参数达4810亿个
简介:谷歌近日展示了其训练大语言模型的能力。新的BERT程序规模比通行的BERT标准版本大了3个数量级,神经网络参数达到481 亿个,而标准版BERT只有3.4亿个参数。为了得到更大的BERT模型,谷歌使用的计算机搭载了2048个TPU芯片。谷歌还说,其能够以63%的效率运行庞大的BERT模型,这比英伟达和微软共同开发的Megatron-Turing语言模型52%的效率要好。

Guess you like

Origin blog.csdn.net/AI_Conf/article/details/121909359