大模型可信与可控

世界人工智能大会(WAIC)今天在上海开幕,得到了全球创业者、学者和政府的关注。与此同时,OpenAI 今天也宣布组建新的团队,以开发引导和控制 “超级智能”。大模型安全一直是绿洲关注的重要方向之一,也就此领域在全球范围内访谈了很多学者。我们结合前沿学术论文观点和众多访谈,梳理了上下两篇围绕安全主题的文章,这是第一篇,希望帮助大家理解如何使大模型生成的内容更可信并且可控。Enjoy

 
 

Part I:两大流派

关于增强 LLM 的可信与可控性,目前学术界有两大流派:

1. 端到端会话模型(E2E Conversational Model):基于对模型自身的提升

2. 基于管道的会话模型(Pipline-based System):基于对用户输入以及输出的控制

I. 端到端会话模型

通过优化端到端对话模型,是学术界关于提高安全性最关注的方向。这个方向的发展在很大程度上依赖于受控文本生成技术的发展,其中可控性可以被视为对话响应生成中的一个重要属性。这个方向的提升一般从预处理、训练、推理三个主要阶段着手。

1. 数据预处理

LLM 模型的响应内容主要依赖于其训练语料库,因此预处理阶段去除不安全数据、将安全数据添加到训练语料库中,可以直接有效地对对话系统的最终行为产生重大影响。OpenAI 的 GPT 系列模型在训练中使用了大量的文本数据

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/132149764