Making Pre-trained Language Models Better Few-Shot Learners

编程语言 2022-08-13 22:42:40 阅读次数: 0

目录

Prompt template

Abstract

使用自然语言prompt和task demonstrations作为额外信息插入到输入文本中很好的利用了GPT-3模型中的知识。于是，本文提出少样本在小模型下的应用。我们的方法包括了基于prompt的微调，同时使用了自动生成的prompt；针对任务demonstration，我们还重新定义了一种动态和有选择地方法将其融入到上下文中。

Introduction

虽然GPT-3只使用提示和任务示例就可以在无需更新权重地情况下表现得很好，但是GPT-3模型很大，无法应用于现实中的场景进行微调。所以本文提出了在BERT等小模型上，仅使用少量的样本去对模型进行微调。作者从GPT-3中得到灵感，使用prompt和in-context同时对输入和输出进行优化，他们使用了暴力搜索去获得一些性能较好的回答词，并且使用T5去生成了提示模板，他们说这种方法很cheap？使用T5单独生成一个模板还cheap？由于输入长度的限制，他们对每个类找出一个好的demonstration。感觉没什么新意啊？GPT-3真就被抄麻了！！！

Methods

label words

Gao et al. (2021)使用了未进行微调的预训练模型，得到最优的K个候选词，将其作为剪枝后的回答词空间。然后他们在此空间上进一步对模型在训练集上进行微调进行搜索得到n个较好的回答词。最后再根据验证集的结果得到一个最优的回答词。

Prompt template

Gao et al. (2021)把prompt模板生成的问题视为一个文本生成的任务，使用T5(Raffel et al, 2020)作为生成器模型。他们将原始输入和输出拼接起来作为T5(Raffel et al, 2020)模型的输入，然后他们使用了束搜索生成多个提示模板，经过在开发集上进行微调得到一个最好性能的提示模板，此外他们还使用了束搜索得到的提示模板用于集成模型的学习。

Demonstrations

不想看了，没意思，就是通过对每个类采样一个示例插入到输入中，参考GPT-3。

Experiments

倒是做了不少的实验，也算是还行吧，对这些数据集不太了解，自己看吧

猜你喜欢

转载自blog.csdn.net/qq_38901850/article/details/126260394

Making Pre-trained Language Models Better Few-Shot Learners

【NLP经典论文精读】Language Models are Few-Shot Learners

GPT-3(Language Models are Few-shot Learners)简介

(GPT3)Language Models are Few-Shot Learners论文阅读

【论文阅读】Language Models are Few-Shot Learners(GPT-3)

论文阅读 | Pre-trained Models for Natural Language Processing: A Survey

Pre-trained Models for Natural Language Processing: A Survey

Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in GEC翻译

论文阅读 | ACL2019 Exploring Pre-trained Language Models for Event Extraction and Generation

END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

机器学习：self supervised learning- Recent Advances in pre-trained language models

【计算机视觉】Vision and Language Pre-Trained Models算法介绍合集（三）

ChatGPT 论文：Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (二)

ChatGPT 论文：Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (一)

Language Models are Unsupervised Multitask Learners 论文纪要

Language Models are Unsupervised Multitask Learners翻译

论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型

Pre-trained models fo HumanPose Estiamtion

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-3与Few-shot Learning

论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE）

GPT2.0 Language Models are Unsupervised Multitask Learners 论文解读

【NLP经典论文精读】Language Models are Unsupervised Multitask Learners

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

【论文笔记】Enhancing Pre-Trained Language Representations with Rich Knowledge for MRC

Enriching Pre-trained Language Model with Entity Information for Relation Classification 论文研读

[文献阅读]——AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

【论文解读】One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers

ZSSeg: A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language

Darknet: Open Source Neural Networks in C - Classifying With Pre-Trained Models

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)