独家 | 英伟达“护栏”软件的失败为LLM（大型语言模型）安全指明前进道路

作者：Anirudh VK

翻译：吴振东‍‍

校对：zrx

本文长度为1500字，建议阅读5分钟

本文主要描述了英伟达所推出的“护栏”软件被攻破后，为各企业在LLM安全问题上提供了相关的经验教训。

自英伟达推出“护栏（Guardrails）”软件后，还不到两个月就已被攻破。以下是各企业可以从中吸取的经验教训。

LLMs(大型语言模型)就像其他技术一样，具有自身的局限性，给予它们访问个人信息的权限可能会导致灾难性的后果。为了尝试解决这个问题，英伟达发布了一款名为NeMo Guardrails的开源工具包，旨在使LLMs适用于企业部署从而确保安全性。现在，安全研究人员已经发现了这个安全漏洞，但这其实不能完全归咎于英伟达。实际上，问题还是出在LLMs上。

安全措施是确保企业使用LLMs的重要步骤，但目前现有的架构似乎还远远不足以弥补LLMs的局限性。虽然已经有人提出了替代方案，但我们必须首先深入了解像英伟达这样的公司发布的“护栏”为何仍然不够完善。

防护不足

扫描二维码关注公众号，回复： 15571920 查看本文章

来自AI风险保护组织Robust Intelligence的研究人员发现了绕过英伟达 NeMo Guardrails的方法。这一开源软件是英伟达作为AI Enterprise平台的一部分提供的。

这个框架旨在保护公司免受LLMs带来的安全风险，但现在似乎起不到应有的作用。该工具的主要目标是将模型的输出限制在一定的范围内。据报道，“护栏”可以避免LLMs出现一些常见缺陷，例如误导性信息、第三方代码不安全的执行，甚至是越狱。

然而，研究人员发现了绕过防护栏的3种主要方法，使得可以不受限制地访问LLM、产生幻觉（译者注：hallucinations，例如一本正经胡说八道）和PII泄露。为了测试这一点，研究人员使用英伟达提供的“topical rails”示例配置对工具进行了评估。

这个护栏示例是为一个基于2023年4月的一份工作报告而训练的聊天机器人设计的，该机器人只能回答与报告相关的问题。这是因为聊天机器人内置了主题护栏。研究人员注意到，护栏能够随着时间的推移而改变，并且异常地保留了过去交互的知识。

然而，研究人员可以轻松地绕过这个护栏，使机器人偏离其主题，甚至“逐渐远离原始主题”。通过这种方式，研究人员能够从一个关于医疗保健的查询中提取到电影《回到未来》的情节线索。

为了测试护栏的其他方面，研究人员对事实核查护栏进行了测试，但在测试场景中未能检测到幻觉。接下来，他们还设计了一个系统，其中LLM可以直接访问PII数据库。他们强调系统不应该这样设计，因为由此产生的安全问题再不断上升。

在这个场景中，该团队构建了LLM并使用NeMo框架创造一个护栏。然而，这个护栏很容易受到简单漏洞的攻击，例如替换单词中的字母和正确构造查询。他们还指出：“将护栏应用于这样的程序中是不恰当的”。

但得到的关键收获是，即使像英伟达这样的AI巨头所创建的护栏也还没准备好进行大规模应用。即使考虑到该工具处于0.1.0版本，并且仅使用了护栏示例，但也应该出现更严格的方法来确保LLM的安全。

问题的根源

LLM-based架构的问题并不在于架构本身，而在于LLM。这意味着LLM中最危险的方面，如不受限制的响应、幻觉和信息泄漏，必须得到积极的保护。之前没有这样做时已经导致了几次高调的越狱事件，例如ChatGPT的DAN、Bing的Sydney以及无数类似的事件。

Robust的研究人员为解决此类问题提供了一系列解决方案，例如将LLM输出视为未初始化的，并将LLM本身视为“不信任的数据消费者”。据他们称，每个护栏都应该包括几个关键因素。

确定正确性或一种持续响应提示的方式都必须得到严格的执行。正确使用内存应被视为最重要的优先事项之一，因为不安全的内存使用可以绕过防护栏。此外，护栏还应保护免受像字符交换之类的越狱攻击，并通过意图来处理查询。

Simon Willison是Datasette的创始人和Django的共同创造者，也提出了一种可以使LLM更安全的架构。通过运行两个LLM,一个可以访问数据，另一个可以访问用户，该架构可以安全地访问PII和其他敏感信息。

此外，在护栏和AI防火墙对它们所使用的LLM有了更深入的了解后，也可以使得其起到更好的效果。研究表明，结合强有力且明确定义的护栏的架构方法可以帮助用户克服在企业环境中部署LLM时出现的许多问题。

关于作者

Anirudh VK：我是一个AI爱好者，喜欢关注该领域的最新动态。我喜欢电子游戏和披萨。

原文标题：NVIDIA’s Guardrails Fall Shows the Way Forward for LLM Security原文链接：https://analyticsindiamag.com/nvidias-guardrails-fall-shows-the-way-forward-for-llm-security/

编辑：黄继彦

译者简介

吴振东，法国洛林大学计算机与决策专业硕士。现从事人工智能和大数据相关工作，以成为数据科学家为终生奋斗目标。来自山东济南，不会开挖掘机，但写得了Java、Python和PPT。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 英伟达“护栏”软件的失败为LLM（大型语言模型）安全指明前进道路

猜你喜欢