元のトレーニング データを抽出するには、ChatGPT に特別な質問をしてください。

ChatGPT などのモデルのパラメーターがますます大きくなるにつれて、事前トレーニング データも指数関数的に増加します。 Google DeepMind、ワシントン大学、コーネル大学の研究者らは、オープンソース モデルとクローズド ソース モデルの両方が、トレーニング プロセス中に一定数の元のトレーニング データ サンプルを記憶できることを発見しました。

特定の悪意のある攻撃が使用されると、データ所有者のプライバシーが脅かされると同時に、大量のトレーニング データがモデルから簡単に抽出される可能性があります。

研究者らが使用した攻撃手法も非常に単純で、ChatGPT (GPT-3.5) に特定の単語を無限に繰り返させる、たとえば「会社」という単語を無限に繰り返すというものです。

最初は、ChatGPT はこの単語を繰り返し続けます。一定の数に達すると、会社の住所、履歴、事業範囲、その他の元のデータが魔法のように表示されます。

このデータはニューロンの再構成に関するテキストの内容ではなく、研究者らは成功事例を共有している。

論文のアドレス: https://arxiv.org/abs/2311.17035

攻撃成功事例の表示アドレス: https://chat.openai.com/share/456d092b-fb4e- 4979-bea1-76d8d904031f

写真

ChatGPTは最初は正常に応答しました

写真


一定量が経過したら、元のトレーニング データの吐き出しを開始します

攻撃方法と原則

研究者らは、トレーニング データの「検出可能なメモリ」とは区別される、「取得可能なメモリ」攻撃手法の概念を使用しました。

「検出可能なメモリ」とは、攻撃者がトレーニング データ セットを知っており、そこからデータを直接抽出できることを意味しますが、「抽出可能なメモリ」とは、攻撃者がトレーニング データを知る方法がなく、モデル自体を通じてデータを取得する必要があることを意味します。

簡単に言うと、攻撃者はデータ トレーニング セットに直接アクセスできず、AI の「動作」または「反応」を解釈して分析することによって、アーカイブにどのような情報が保存されているかを推測することしかできません。モデル。 宝箱泥棒のようなものです。彼は鍵を持っておらず、宝箱の形から中に何が入っているかを判断することしかできません。

写真

研究者らは、ランダムプロンプト、末尾再帰インデックス検出、反復分岐などのさまざまな攻撃手法を使用し、最終的に反復分岐を通じてデータセキュリティの脆弱性を発見しました。

1) ランダム即時攻撃

研究者らは、Wikipedia などのオープンソース テキストから 5 つのフレーズをプロンプトとしてサンプリングし、言語モデルに入力し、プロンプトに基づいてテキストを生成し続けるように依頼しました。

このランダムなヒントを使用すると、モデルによって生成されたテキストの一部がトレーニング データ セットのコンテンツになる可能性があります。

2) 末尾再帰インデックス検出

生成されたテキストがトレーニング データ セットに由来するものであるかどうかを効率的に検出するために、研究者らは「末尾再帰インデックス」を構築しました。

このデータ構造は、文字列接尾辞によってソートされたすべてのトレーニング データ セット テキストを保存し、高速な部分文字列クエリ操作をサポートします。このインデックスは、プロンプトがトレーニング データを生成したかどうかを検出するために使用できます。

3) 反復は発散を引き起こす

研究者らは、単一の単語で言語モデルを繰り返しプロンプトすると、トレーニング データと正確に一致する長いテキストが生成される可能性があることを発見しました。これは、モデルが単語を継続的に繰り返し、他のテキストに「分岐」することが難しいためです。

写真

攻撃の影響を評価するために、研究者らは 9 TB の補助データ セット AUXDATASET を構築しました。これには、公開されている大規模な言語モデルの事前トレーニング データ セットが含まれています。 このデータセットに基づいて、生成されたサンプルがトレーニング データに含まれるかどうかを機械的に検証することができました。

実験データによると、実際のトレーニング データを手がかりとして使用しなくても、既存の抽出攻撃により、以前の推定をはるかに超える大量のトレーニング データがメモリ内に回復される可能性があります。

たとえば研究者は、6B パラメータの GPT-Neo モデルから 1 GB 近くのトレーニング データを抽出しました。これは、検索可能な記憶の数が一般に考えられているよりもはるかに多いことを証明しています。

写真

その後、9 つの異なる商用 AI モデルに対する攻撃を続けます。結果も同様に驚くべきもので、多くのモデルが GB レベルのトレーニング テキストを抽出できます。たとえば、長さ 50 の 29,000 個のメモリ テキストが LLaMA モデルから抽出されます。

ChatGPT について具体的な質問をする

研究者らはまた、ChatGPT を具体的に分析しました。ChatGPT は、データ セキュリティ調整テクノロジを使用して実際の人間の会話をシミュレートするため、モデルがトレーニング データを漏洩する可能性が低いからです。

しかし、詳細な分析の結果、研究者らは依然として、ChatGPT が制御を失い、通常の言語モデルのようにデータ漏洩を開始する可能性があるヒント戦略を発見しました。その方法は、モデルに単語を無限に答えさせることです。

この攻撃手法により、研究者はわずか 200 ドルで ChatGPT から 10,000 のトレーニング サンプルを抽出しました! それ以上の費用がかかる場合、多額の費用がかかる場合は、 ChatGPTからは約1Gの学習データを抽出することが可能です。

写真

研究者らは、ChatGPT の大容量ストレージと大量の反復トレーニング データにより、トレーニング データのメモリが増加し、厳密なセキュリティ調整技術が使用されている場合でも、データ漏洩の問題が発生する可能性があると考えています。

したがって、事前トレーニングで機密データが多すぎると、他人が悪用する可能性が高くなります。

現在、ChatGPT ではこの脆弱性が修正されており、特定の単語を無限に繰り返すリクエストを行うと、「OpenAI の利用ポリシーに従って、意味のない内容を繰り返す行為には参加できません。」と表示されます。

この記事の内容は Google 論文からのものです。権利侵害がある場合は、削除するようご連絡ください。

おすすめ

転載: blog.csdn.net/richerg85/article/details/134940746