MASSIVE EDITING FOR LARGE LANGUAGE MODELS VIA META LEARNING - 代码天地

MASSIVE EDITING FOR LARGE LANGUAGE MODELS VIA META LEARNING

企业开发 2024-01-08 19:03:40 阅读次数: 0

本文是LLM系列文章，针对《MASSIVE EDITING FOR LARGE LANGUAGE MODELS VIA META LEARNING》的翻译。

基于元学习的大型语言模型大规模编辑

摘要
1 引言
2 相关工作
3 问题定义
4 方法
5 经验评价
6 讨论

摘要

虽然大型语言模型（LLM）已经能够从预训练语料库中学习知识，但随着时间的推移，所获得的知识可能从根本上是不正确的或过时的，这需要在训练后纠正语言模型（LM）的知识。一种有前途的方法涉及使用超网络来生成参数偏移，而现有的超网络在同步编辑操作量方面具有较差的可扩展性。为了缓解这个问题，我们提出了大规模语言模型编辑网络（MALMEN），它将参数偏移聚合公式化为最小二乘问题，然后使用正规方程更新LM参数。为了在有限的内存预算下同时编辑多个事实，我们将超网络和LM上的计算分开，从而在两个神经网络上实现任意批量。我们的方法是通过在具有不同架构的LMs上编辑多达数千个事实来评估的，即BERT基础、GPT-2、T5-XL（2.8B）和GPT-J（6B），跨越各种知识密集型NLP任务，即闭书事实核查和问答。值得注意的是，在相同的超网络架构下，MALMEN能够编辑比强基线多数百倍的事实，并且优于专门为GPT设计的编辑器。我们的代码在https://github.com/chenmientan/malmen上可用.

1 引言

2 相关工作

3 问题定义

4 方法

5 经验评价

6 讨论

我们提出了一种可扩展到数千个事实的LM编辑超网络，称为大规模语言模型编辑网络（MALMEN）。我们的评估表明，在相同的架构下，MALMEN可以编辑比MEND多数百倍的事实，并胜过专门为GPT设计的编辑器MEMIT，从而将自己定位为现实世界工业应用的竞争对手。MALMEN将参数偏移聚合公式化为最小二乘问题，随后利用正规方程更新LM参数。为了允许在两个神经网络上都有任意的批量大小，超网络和LM上的计算是分开的，这使得在有约束的内存限制的情况下编辑多个事实是可行的。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/135090757

MASSIVE EDITING FOR LARGE LANGUAGE MODELS VIA META LEARNING

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey，2020

Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs

【论文精读】GPT-NER: Named Entity Recognition via Large Language Models

Exploring the Intersection of Large Language Models and Agent-Based Modeling via Prompt Engineering

Challenges and Applications of Large Language Models

A Survey of Large Language Models Attribution

Large Language Models in Finance: A Survey

【In-Context Learning】Meta-learning via Language Model In-context Tuning

【论文精读】Emergent Abilities of Large Language Models

论文阅读 A Survey of Large Language Models 2

论文阅读 A Survey of Large Language Models 1

Are Emergent Abilities of Large Language Models a Mirage?

论文阅读 A Survey of Large Language Models 3

Recommender Systems in the Era of Large Language Models (LLMs)

Augmented Large Language Models with Parametric Knowledge Guiding

Enabling Large Language Models to Generate Text with Citations

A Survey on Model Compression for Large Language Models

A Survey of Text Watermarking in the Era of Large Language Models

Trends in Integration of Knowledge and Large Language Models

TASKBENCH: BENCHMARKING LARGE LANGUAGE MODELS FOR TASK AUTOMATION

A Survey on Multimodal Large Language Models for Autonomous Driving

论文解读：Large Language Models as Analogical Reasoners

HaluEval： A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

Learning to Prompt for Vision-Language Models

Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》

chain of thought prompting elicits reasoning in large language models

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

论文阅读：chain of thought Prompting elicits reasoning in large language models

WizardKM:Empowering Large Language Models to Follow Complex Instructions

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)