AIでAIと戦う、大型モデルセキュリティの「進化論」

クリックしてフォローしてください

文丨Liu Yuqi、編集者|Wang Yisu

「インターネット時代は危険ですか、それとも安全ですか?」

インターネットが急速に発展していた2016年当時、エレベーターの広告にはこの大きな文字と2行のスローガンが頻繁に登場し、ウイルスやトロイの木馬からオンライン詐欺まで、セキュリティに対する考え方やセキュリティ防御技術の確立が競い合ってきました。科学技術の発展。同様に、ビッグモデル時代の初期には、セキュリティに関する多くの考慮事項が発生しました。

インターネットの発明から10年、インターネット保護技術と産業チェーンが完成し始め、過去数十年の経験を基に、ビッグモデル誕生から半年足らずでモデルのセキュリティとデータを中心にセキュリティ、コンテンツセキュリティに関する議論は終わりがありません。

過去 1 週間、上海外灘会議、浦江イノベーション フォーラム、国家サイバー セキュリティ週間やその他の機会で、産業界、学界、研究コミュニティはデータ セキュリティ問題 (データ ポイズニング、情報漏洩、著作権リスクなどを含む) に焦点を当ててきました。大規模なモデル アプリケーションの実装に起因するモデル、セキュリティ問題 (モデル自体のセキュリティ脆弱性、悪意のある悪用など)、コンテンツ セキュリティ問題 (違反、違法性などの機密情報を含む生成されたコンテンツ) について一連の議論が行われました。 、ポルノなど)、AIの倫理問題など。

大規模なモデルを保護するにはどうすればよいですか?

360、Ant、Sangfor、Qi'anxin、Shanshi Technology などの一部の国内セキュリティ メーカーは、大型モデルのセキュリティ テクノロジの開発を積極的に行っています。

01 大型モデルには「医者」と「ボディーガード」が必要

新種としての大型模型の誕生には、訓練過程での安全監視が必要であり、最終的に大型模型が市場に投入される際には、「品質検査」も必要となります。これは、セキュリティ問題を解決するためのマクロなアプローチです。

一般的な大規模モデルであっても、垂直分野向けの業界大規模モデルであっても、現在、モデルのセキュリティ保護は主に次の 3 つの部分に分かれています。

1 つ目は、トレーニング段階でのデータの問題です。データが不適切に収集されたり、偏ったり、ラベルが間違っていたり、あるいはデータが汚染されている場合、大規模なモデルが誤った出力、差別、またはその他の悪影響を生み出す可能性があります。申請プロセス中にもデータが影響を受けるため、データ漏洩やプライバシー漏洩などのリスクに直面することになります。

2 つ目は、モデル自体の制御性の問題です:モデルの信頼性、安定性、堅牢性などをテストする必要があります。たとえば、ユーザーはモデルを誘導するためにターゲットを絞ったステートメントを事前に構築しており、大規模なモデルは不正な情報を生成する可能性があります。 、差別、政治、傾向およびその他のリスクコンテンツ。

3 番目は、実際のシナリオで大規模モデルを適用する場合のセキュリティの問題です。実際の使用中、特に金融や医療などの非常に高い要件が求められる分野では、さまざまなユーザー グループの相互作用とアプリケーションを慎重に評価する必要があります。モデル出力の正確性 不適切に使用すると、1 つの石が簡単に何千もの波を引き起こす可能性があります。

多くの業界関係者はGuangcone Intelligenceに「モデルの安全性には統合された技術的保護システムが必要であり、1つのリンクの制御だけでは根本的な問題を解決できない」と語った。

インターネット セキュリティの開発過程を参照すると、多くの「ウイルスの検出と駆除」を行うソフトウェア会社が誕生していますが、一般に、問題の検出と特定が最初のステップとなることがよくあります。

Light Cone Intelligence は、Ant の「Yitianjian」には、検出からガバナンス、防御までのチェーン全体をカバーする、大型モデルのセキュリティ検出プラットフォーム「Yitianjian 2.0」と大型モデルのリスク防御プラットフォーム「Tianjian」が含まれていることを知りました。Antjian 2.0 は、大規模なモデルに対して多次元セキュリティ スキャンを実行して、既存のデータ セキュリティ リスク、コンテンツ リスク ポイント、その他の問題をチェックできます。これは、「ブラック産業」の視点に立って、インテリジェントな攻撃と対立技術を使用して、数百万の帰納的質問を自動的に生成し、大規模な生成モデルに対して帰納的質疑応答を実施し、大規模モデルの弱点や抜け穴を見つけ出すことに相当します。 。

技術的な観点から見ると、Yijian は最新の「敵対的インテリジェンス」テクノロジー ルートを採用しており、インテリジェントな敵対的テクノロジーを使用して、大規模なモデルに継続的に「質問」を投影し、モデルによって生成された回答を観察し、リスクがあるかどうかを判断します。医師が患者の症状を複数回尋ねるのと同じように、継続的な「拷問」を通じて、プラットフォームは大規模モデルの健康状態を調査して分析できます。

敵対的サンプルを生成し、敵対的サンプルを検出するためのアルゴリズム システムを開発することで、大規模モデルのセキュリティを向上させることが、主流の技術トレンドとなっています。業界では、OpenAI、Google、Microsoft、NVIDIA などの巨大企業が自社の製品やサービスに対諜報技術を適用しています。

たとえば、この技術思想のもとでは、トロント大学が開発したCleverHansシステムは、盗難防止システムをテストするために特別に設計された「泥棒」のようなもので、意図的に小さな干渉を加えてAIセキュリティシステムを欺こうとします。 。通常の状況下では、AI システムは「子猫」の写真を正確に識別できますが、CleverHan システムは、AI に「子猫」の写真のような錯覚を与えるために、「子猫」の写真の数ピクセルをわずかに変更する必要があります。それは子犬の写真です。AI システムが騙された場合、それはセキュリティ上の脆弱性があることを意味します。

発見や「診断」と比べて、「予防や治療」も非常に重要です。Ant Tianjian は、問題が発生する前に防ぐことができるスマート シールドのようなものです。Tianjian は、防御のために質問するユーザーの意図をインテリジェントに分析することで、モデルに機密コンテンツの生成を誘導しようとする特定の悪意のある質問を傍受し、外部からの悪意のある誘導が大規模なモデルに導入されないようにすることができます。同時に、モデル出力コンテンツに二次フィルタリングが実装され、リスク情報が自動的に識別され、大規模モデルによって出力されたコンテンツが仕様に準拠していることを確認するために介入します。

さらに重要なのは、データの問題がモデル セキュリティの源であるということです。中国情報通信技術学院クラウド コンピューティングおよびビッグデータ研究所所長の Shi Lin 氏は、かつて学術交流会で次のように述べています。これには、トレーニング データのクリーニング、入出力コンテンツのフィルタリング、監視や識別などのセキュリティ予防および管理措置も講じます。」

これには、防御プラットフォームがデータ ソースで機能して、有害なデータ ソースや制御不可能なモデルの深さのブラック ボックスなどの問題に対処する必要があります。Ant Group の Big Security Machine Intelligence 部門のコンテンツ アルゴリズム ディレクターである Zhu Huijia 氏は、Tianjian は現在、データの解毒、調整トレーニング、解釈可能性の研究を通じてモデルのセキュリティを確保しようとしていると述べました。

02 魔法には魔法を、AIにはAIと戦う。

デジタルの世界と人間の目で見る世界ではコンテンツの性質が異なります。

大型モデルの時代の到来に伴い、その強力な機能は、セキュリティ保護テクノロジーの変革に新しいアイデアをもたらしました。「AIの力でAIと戦う」が話題になっている。

実際、敵対的な攻撃と防御のアイデアはモデル セキュリティに限定されたものではありません。すでに過去 10 年間、さまざまなセキュリティ脅威に直面して、人工知能の分野は「攻撃、テスト、防御 - 防御を促進する攻撃 - 攻撃と防御の統合」というセキュリティ概念を徐々に形成し、探求を続けています。さまざまな攻撃シナリオをシミュレートし、モデルやシステムの弱点を利用してアルゴリズムやエンジニアリング面での防御機能の強化を推進します。

しかし、これまでのセキュリティ保護は主に機械学習アルゴリズム モデルに依存していたため、大量の専門的なデータ知識の蓄積が必要であり、知識の盲点や少量サンプルの時期尚早のコールド スタートの問題に直面していました。ラージ モデル テクノロジーを使用すると、よりインテリジェントなセキュリティの防止と制御を実現できます。

これはいくつかの側面に反映されています。まず、大規模モデルはインテリジェントなセキュリティ「コンサルタント」を提供できます。膨大なテキストに基づいて事前トレーニングされた大規模なモデルは、優れた「コンサルタント」となり、適切な分析と防御戦略を提案できます。たとえば、簡単な自然言語の記述により、セキュリティ状況を迅速に分析し、対応策を提案し、セキュリティ チームの解決策の計画を支援できます。これは、スマートセキュリティの「小さなアシスタント」に似ています。

業界の現状を見ると、AIの安全性を評価するための使いやすい標準化された評価ツールやルールがまだ整備されていません。

これも大規模モデル防御で補完できるもう 1 つの側面であり、大規模モデル技術を使用してリスク知識と標準ルールを学習し、AI のリスクに対する認知的理解を向上させ、大規模モデルを使用して非常に高速な防御と迅速なコールド スタートを実現します。大型モデルの目標。

大規模モデルのセキュリティには「高速」と「低速」の両方が必要ですが、これら 2 つのロジックは矛盾しません。大規模モデルのセキュリティ防御に関しては、「高速」であり、サービスに有害なものがないことを保証するために、ウイルスを迅速に検出して駆除できる必要があります。これには、「データの無毒化」や「安全ガードレール」などのいくつかの重要な防御が含まれます。大規模モデルの安全性・信頼性については、「ゆっくり」でありながらシステム環境全体の制御性・信頼性を長期的かつ計画的に確保する必要がある「セキュリティ評価」もこれに含まれます。 、「脱構築と制御可能性」、「人間社会の共同統治」などの側面。

テキストセキュリティを例にとると、セキュリティ標準ルール、リスクドメインの知識、および過去のリスクサンプルに基づいて大規模なモデルをトレーニングして、リスク標準と内容に対するモデルの理解を向上させ、それによってリスク検出機能を向上させることができます。また、セキュリティ ナレッジ グラフと組み合わせた大規模なモデル生成機能を使用して、攻撃サンプルを構築し、検出モデルを継続的に反復的に最適化します。

セキュリティ専門家は、「手動で収集された限られたサンプルと比較して、大規模モデルによって生成された膨大で多様なサンプルは、セキュリティ検出モデルに『十分な情報を与え』、新しい脅威手法に迅速に適応できるようになるだろう」と述べた。

このテクノロジーは、Ant による AIGC コンテンツ検出にも使用されています。Zhu Huijia 氏は次のように述べています。「AIGC ディープフォージェリ検出は、攻撃、テスト、防御、そして攻撃を利用して防御を促進するという考えも採用しています。これは、さまざまな方法、さまざまなスタイル、さまざまな世代モデルを通じて生成され、数十近くのセキュリティを確立しています。 」

AIGC の適用中に引き起こされた問題に対応して、世界のいくつかの大手企業が計画を立て始めています。

OpenAIは以前、モデルの悪用による悪影響を軽減するために電子透かし技術をChatGPTに追加することを検討していると述べ、Googleは今年の開発者会議で、AIが生成した企業のすべての画像に透かしが埋め込まれていることを確認すると述べた。 1月初旬、NVIDIAはビデオ内の顔がディープフェイクかどうかを調べるFakeCatcherと呼ばれるソフトウェアもリリースした。

インターネットの発展の歴史を振り返ると、混乱と急速な発展は「双子の兄弟」であることが多く、インターネットが真に百花繚乱の時代を迎えたのは、ネットワークセキュリティの産業化が成熟してからでした。

同様に、モデルのセキュリティは 1 つのセキュリティ メーカーだけの仕事ではありません。セキュリティ技術が信頼できるフェンスを形成する場合にのみ、大型モデルの技術が実際に「一般の人々の家庭に飛び込む」ことができます。

「大規模モデルは非常に複雑な問題です。倫理、データ、トレーニング、その他の分野の複雑さは前例のないものです。これは新しい分野であり、誰もが直面している命題です。大規模モデルのセキュリティの観点から見た Ant の「Yitianjian」について、私たちはいくつかの調査を行ってきました。 「しかし、回答の信頼性や正確さなど、研究し解決すべき問題はまだ多くあります。また、継続的な反復と改善が必要であり、社会全体の共同努力が必要です。」と朱恵家氏は最後に述べた。

Light Cone Intelligence をフォローして、科学技術に関する最先端の知識をさらに入手することを歓迎します!

おすすめ

転載: blog.csdn.net/GZZN2019/article/details/132874651