ChatGPT安全限制的新方案

前言

卡内基梅隆大学近期发现了一种新的绕过 LLM 安全限制的方案 -- 添加对抗性后缀,这种方案完全规避了开源 LLM(大型语言模型)的对齐。更令人担忧的是,相同的提示也适用于 ChatGPT、Claude、Bard 和 LLaMA-2 这种闭源的优秀 LLM。

图片

   

测试 Claude2

Claude2 具有额外的安全过滤层。在我们用一个单词技巧绕过它后,生成模型愿意给我们提供答案。

图片

   

测试结果

仅使用四个对抗性后缀,这些 LLM 在超过 60%的时间里遵循有害的指令。

图片

   

可自动化生成

手动“越狱”很少见,而且通常是不可靠的。但我们找到了一种自动化方法(GCG),可以构建无限多个这样的越狱,即使对于新的指令和模型,它们的可靠性也很高。

对齐模型并非对抗性对齐!尽管这些模型明确受过训练,拒绝执行有害的指令,但我们的后缀可以使它们提供制作炸弹的指令,这是一个典型的例子,很可能在它们的训练集中直接受过训练。

   

我们不能修补这个“漏洞”吗?

像 OpenAI 这样的公司只是修补了论文中的后缀,但在训练过程中获得的其他许多提示仍然有效。此外,如果模型权重得到更新,在新模型上重复相同的过程可能仍然有效。

图片

这一令人担忧的发现表明,不法分子利用这些系统传播错误信息和操纵人们及政治的短期风险。从模型的能力和自主性来看,它们可能降低制造武器的门槛或协助犯罪活动。

   

那么为什么要发布这种方案?

尽管存在风险,但我们认为全面披露是正确的。这里介绍的攻击方法易于实施,此前已出现过类似形式,最终会被任何专注于滥用 LLM 的团队发现。

作为一个研究团队,我们发布这种攻击的目的是尽早发出警报,帮助促进讨论。在部署更先进、更自主的代理,比这些聊天机器人带来的风险要高得多之前解决这个问题至关重要。

   

那么我们能解决这个问题吗?

这是不确定的。在计算机视觉领域,对抗性示例已经持续了十多年,尚未找到满意的解决方案。目前还不清楚这是否会从根本上限制 LLM 的适用性。我们希望我们的工作能激发未来的研究方向。

   

当前修复情况

ChatGPT 和 Claude2 动作比较快,目前已修复这种“越狱”方案,但是不保证修复完全。其他的 LLM 暂时未修复。

下面是宝玉老师的测试结果:

图片

图片

chatgpt体验:http://www.chat136.com

chatgpt学习:http://me.chat136.com

参考链接

https://twitter.com/andyzou_jiaming/status/1684766170766004224

其他项目推荐

10.1

awesome-gpt-security

  • 项目地址:

https://github.com/cckuailong/awesome-gpt-security

  • 项目简介

精选的与 LLM 或 GPT 相关的安全工具、实验案例或其他有趣内容的列表。

10.2

SuperAdapters

  • 项目地址:

https://github.com/cckuailong/SuperAdapters

  • 项目简介

一键微调框架,支持全平台(Linux/Windows/Mac),支持多种 LLM,支持多种微调方式(Lora/Qlora/PTuning 等)

图片

注意:本文归作者所有,未经作者允许,不得转载

猜你喜欢

转载自blog.csdn.net/heikeb/article/details/132008065