Adapting Language Models to Compress Contexts

物联网 2023-08-22 17:56:03 阅读次数: 0

本文是LLM系列文章，针对《Adapting Language Models to Compress Contexts》的翻译。

使语言模型适应上下文压缩

摘要
1 引言
2 相关工作
3 方法
4 实验
5 上下文学习
6 压缩检索语料库实现高效推理
7 结论
不足

摘要

1 引言

2 相关工作

3 方法

4 实验

5 上下文学习

6 压缩检索语料库实现高效推理

7 结论

我们引入了一种训练策略，用于将预训练的LMs调整为自动压缩器，自动压缩器将上下文递归压缩为摘要向量。我们的实验表明，摘要向量保留了重要的上下文信息，用于改进语言建模、上下文演示中的编码以及评估文章与用户查询的相关性。这表明，我们的无监督训练策略可以带来多用途的应用。摘要矢量可以预先计算、缓存和重复使用。这承诺通过减小注意力窗口的大小来提高实际的效率。未来还有大量工作要做，将自动压缩器扩展到更大的模型，并提高摘要向量的质量，以进一步缩小差距，同时充分关注长期上下文。

不足

我们只将AutoCompressors应用于参数高达2.7B的OPT型号。未来的工作需要确定自动压缩器在大型模型中的表现，但随着摘要向量维度的增长，每个向量可以保留更多信息。我们还质疑，其他具有不同体系结构特征的预训练模型族，如未绑定的输入输出嵌入，是否更难适应自动压缩器。
我们的研究结果表明，摘要向量忽略了一些通过充分关注可以获得的有用信息。此外，模型并不总是从增加汇总向量的数量中受益。我们怀疑，用于有效学习摘要向量的训练信号可能会受到预训练模型的限制，该模型非常善于根据当前片段中的纯文本标记进行预测。未来的工作需要改进这种优化。
摘要积累仍然会随着分段数量的增加而导致二次复杂度，尽管其速率远低于完全注意力。未来的工作可能会探索更有效地组合许多摘要向量的方法。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/132407287

Adapting Language Models to Compress Contexts

论文解读: 2023-Lost in the Middle: How Language Models Use Long Contexts

DriftRec: Adapting diffusion models to blind image restoration tasks (Paper reading)

【NLP】Conditional Language Models

The rise of language models

转：Language Models as Knowledge Embeddings

Challenges and Applications of Large Language Models

A Survey of Large Language Models Attribution

Large Language Models in Finance: A Survey

Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning

【大模型迁移 2022】Exploring Visual Prompts for Adapting Large-Scale Models

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey，2020

【NLP】Recurrent Neural Network and Language Models

ELMo（Embeddings from Language Models） --学习笔记

Lecture 6: Language Models and Recurrent Neural Networks

Language Models are Unsupervised Multitask Learners 论文纪要

[文献阅读]—Language Models are Good Translators

Language Models are Unsupervised Multitask Learners翻译

论文分享丨Holistic Evaluation of Language Models

论文阅读 A Survey of Large Language Models 2

论文阅读 A Survey of Large Language Models 1

【论文精读】Emergent Abilities of Large Language Models

LLaMA Open and Efficient Foundation Language Models

论文阅读 A Survey of Large Language Models 3

Grounding Language Models to Images for Multimodal Generation

Augmented Language Models（增强语言模型）

Are Emergent Abilities of Large Language Models a Mirage?

LLaMA: Open and Efficient Foundation Language Models

Learning to Prompt for Vision-Language Models

robust distortion-free watermarks for language models

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)