Jailbreak ChatGPT、Bard、Claude のセキュリティ制限は簡単に破られることが研究で判明

ChatGPT、Bard、Claude などの主流 AI システムのセキュリティ制限は、自由に破ることができることが新しい研究で判明しました。

新しいレポートの中で、カーネギーメロン大学とサンフランシスコ AI セキュリティセンターの研究者らは、主流の AI チャットボットのセキュリティ制限を突破する可能性のある複数の方法を発見したと述べています。

ChatGPT、Bard、Claude などの言語モデルをサポートする企業は、不当なコンテンツが生成されないように広範なコンテンツ管理措置を採用しています。しかし研究者らは、オープンソース システム用に開発されたハッキン​​グを利用すれば、市場で主流となっている制約された AI システムの別の側面を解き放つことができることを発見しました。

このレポートは、主にユーザーのクエリ文の末尾に特定の文字を追加することによる自動敵対的攻撃がセキュリティ制限を突破し、主流派が信じている誤ったコンテンツ、異常な情報、または衝撃的な発言をチャットボットに生成させる可能性があることを証明しています。これらのクラッキング技術は完全に自動化されているため、同様の手段は「事実上無制限」にあると研究者らは述べている。

研究者らは調査結果をGoogle、Anthropic、OpenAIに開示した。業界の専門家は、これがAIレビューメカニズムやオープンソース言語モデルの公開リリースのセキュリティなどの問題について広範な検討を引き起こすきっかけとなったと指摘した。AIシステムのコンテンツ制御は重要ですが、すべての「抜け穴」を完全にふさぐのは非現実的だと思われます。関係する企業は、AI システムが悪用されるリスクを最小限に抑えるために、開発を継続的に改善する必要があります。

関連記事:一連の魔法の文字により、ChatGPT を含む AI チャットボットが異常になる可能性がある

参考文献:
https://www.94c.cc/info/jailbreaking-chatgpt-bard-and-claude-casually.html

おすすめ

転載: blog.csdn.net/2302_76860168/article/details/132568190