AIGC は重要なソフトウェア サプライ チェーンになる
最近、OpenAI によって開始された ChatGPT により、強力な AIGC (人工知能プロダクション コンテンツ) 機能によって AI の破壊的な変曲点が到来すると多くの人が考えています。AI ベースは新しいソフトウェア製品エクスペリエンスをもたらし、AI はまた、ソフトウェア供給の将来、チェーンにおける非常に重要なリンク。
OpenAIのドキュメントには実装可能な48のアプリケーションシナリオが記載されており、ChatGPTに代表されるAI機能をさまざまな業界に適用する方法が活発に模索されています。
OpenAIでの応用例
応用という点では、学生が最初のリスクグループになる可能性があります。オンラインコースプロバイダーである Study.com が 18 歳以上の学生 1,000 人を対象に行った調査によると、アメリカの大学生の 89% が ChatGPT を宿題に使用し、53% の学生がレポートを書くために使用し、48% の学生が試験を完了するために ChatGPT を使用していることがわかりました。 。学生がそのようなツールに過度に依存するのを防ぎ、不正行為を防ぐために、多くの国の学校は学生によるChatGPTの使用を禁止し始めています。
ChatGPT の影響に関する体系的な研究はありませんが、ChatGPT に先立って、2021 年に OpenAI と GitHub が共同で AI コード生成ツール Copilot を開始しました。Copilot は、数十億行のコードを通じて OpenAI によってトレーニングされた Codex モデルに基づいており、コンテキスト内のコンテンツに基づいてコードを自動的に完成させることができます。サービス開始から最初の 1 か月で 40 万人以上の開発者が登録し、同様のツールには tabnine や Amazon の CodeWhisperer などがあり、これらはすべてプログラマーがコードを書くスペースを「占領」しています。
GitHub コパイロットの仕組み
GitHub は実験を通じて次のことを発見しました。
- Copilot を使用すると、開発者のタスク完了率が大幅に向上します (実験で Copilot を使用した場合の完了率は 78%、未使用の場合の完了率は 70%)
- Copilot を使用している開発者は、使用していない開発者よりも 55% 速く開発でき、これは大幅な改善です (Copilot を使用している開発者は平均 1 時間 11 分を費やしていますが、使用していない開発者は 2 時間 41 分です)。
経験に関して、調査では次のことがわかりました。
- 開発者の 90% が作業速度が向上したと信じています
- 開発者の 60% ~ 75% が仕事の満足度が向上したと報告
- 開発者の 87% は、反復的なタスクに対処する際の社内の摩擦を軽減しています
Copilot などのインテリジェントなコード生成ツールに基づいて開発する開発者がますます多くなることが予測され、生成されたコードの結果は時間の経過とともにより多くの開発者によって信頼される可能性があります。
ソフトウェア サプライ チェーンによってもたらされるセキュリティとコンプライアンスのリスク
特に AIGC にとって、セキュリティ問題は本質的に信頼の問題であり、その応用範囲が広いため、人々が接触するあらゆる種類のコンテンツが AI によって生成される可能性があります。
したがって、開発者とユーザーには次のリスクが生じる可能性があります。
脆弱なコードを導入する
OpenAI の評価によると、Codex が正しいコードを提供する確率は 37% のみです。実行できないバグに加えて、AI に基づいて記述されたコードには脆弱性が発生する可能性があります。Hammond Pearce らは 89 のシナリオで生成されたコードを研究し、GitHub Copilot によって得られた結果の 40% に脆弱性があることを発見しました。下図で生成されたPythonコードでは、パラメータがSQL文に直接繋ぎ合わされているため、SQLインジェクションの危険性があります。
GitHub Copilot によって生成された脆弱な Python コードの例
その理由としては、Copilot のトレーニング データがオープン ソース コードから取得されていることが考えられます。多くのオープン ソース コードは主に個人プロジェクトであり、そのセキュリティは企業シナリオや実際のシナリオで使用される場合と同じように考慮されていません。 、データはセキュリティからのものです。上記には不均衡がある可能性があります。トレーニング サンプルを選択するとき、そのセキュリティはテストおよびフィルタリングされず、トレーニングに直接使用される可能性があります。そのため、開発者は生成されたコードを直接使用します。脆弱性リスクが発生する可能性が高くなります。
モデルは毒を盛られている
データソースポイズニング
モデル トレーニング用のデータは通常、公開されているコンテンツから取得されます。データ ソースが攻撃者によって制御されており、データのラベル付け中に識別されなかった場合、攻撃者はデータ ソースに悪意のあるデータを追加することでモデルの結果を妨害する可能性があります。データ ソースが 1 つだけのシナリオでは、ポイズニングの可能性が高くなります。最近、Google が Bard をリリースしたとき、誤った事実結果を提供したため、その日の株価は急落しました。「ジェームズ・ウェッブ望遠鏡による新しい発見について、9歳の子どもに何と伝えればよいでしょうか?」との質問に、バードさんは「最初の系外惑星の画像は、ジェームズ・ウェッブ望遠鏡で撮影されたものです」と答えた。ジェームズ・ウェッブ望遠鏡が打ち上げられる18年前の2004年。
ジェームズ・ウェッブ望遠鏡に関するバード氏のプレゼンテーションのスクリーンショット
プロセスポイズニングを使用する
ChatGPT が人間のフィードバックに基づいた強化学習メカニズムを使用する場合、AIGC モデルはユーザーのフィードバックに基づいてモデルを修正する可能性があります。ブロックチェーンの 51% 攻撃と同様、多数のユーザーが同じコンテンツに対して誤ったフィードバックを送信すると、モデルが誤って修正されます。攻撃者がデバッグ モードに類似したスイッチを見つけた場合、モデル開発者の神の観点からポイズニングを実装する可能性もあります。
OpenAI には AI モデルに対していくつかの制限的なポリシーがあり、ChatGPT 出力は許可されていません。Reddit の walkerspider というユーザーは、ChatGPT がそのポリシーによって制限されないように、対話を通じて制限を突破するサンドボックス環境を ChatGPT に与えることができることを発見しました。この種の動作はプロンプト インジェクション攻撃 (プロンプト インジェクション) と呼ばれます。
ChatGPT を無制限の DAN のふりをさせる
モデルにバックドアがあります
モデルがますます強力になるにつれて、より多くの機能が与えられるようになります。元々はコンテンツを生成するだけだった AI が、他のタスクを実行するボット機能を備えている場合があります。これらの機能が悪用されたり、侵入のためのバックドアとして使用されたりする可能性があります。
スタンフォード大学の学生である Kevin Liu 氏は、Microsoft が新しく発売したチャット ロボット (Bing Chat) の開発およびデバッグ モードをプロンプト インジェクションを通じて発見し、対話を通じて AI を開発者オーバーライド モード (Developer Override Mode) に移行させることができることを学びました。 Microsoft 社内では Sydney として知られており、その作成時期とモデルの規制上の制約を理解しています。
Kevin Liu が Bing Chat を開発者オーバーレイ モードにしているスクリーンショット
AI がユーザーと企業間の対話型ポータルになると、AI は企業ネットワーク セキュリティの新たな攻撃対象領域になる可能性があります。AI がコードを実行してネットワークにアクセスする機能を備えていれば、攻撃者は AI を制御してテキストを通じてネットワークに侵入できる可能性があります。 . .
プライバシーデータの漏洩
アプリケーションのユーザー使用シナリオの観点から、ユーザーとの対話プロセス中に、ユーザーは名前、携帯電話番号、住所などの明示的な個人情報、または個人の心理的情報などの個人情報を提供する場合があります。インタラクションコンテンツ内の状態、好みなど、セマンティクスに暗黙的に含まれる情報。これらの個人情報は、保護の程度によっては実名・匿名の形でモデル開発者やデータラベリングチームに流れ、ユーザーの個人情報を取得したり、トレーニングに直接利用したりする場合があります。他のユーザーがこれらの個人情報を取得できるように、モデルの出力として使用される場合があります。
モデル学習用のデータソースから、人為的なフィルタリングやラベリングを行わずに個人情報を含むデータをサンプルとして収集すると、出力に個人情報が含まれる可能性があり、AIの普及により個人のプライバシーがより広範囲にさらされる可能性があります。
Copilot を使用する過程で、一部の開発者はオートコンプリートによって ID 番号情報の入力が求められることに気づきましたが、GitHub CEO のナット フリードマン氏はかつてこのような事件に対応し、含まれる個人情報はランダムに生成された偽データであると述べました。
開発者は、Copilot が ID 番号を完成できることを発見しました。
データリスクを理由に、アマゾンとマイクロソフトは従業員に対し、AIと対話する過程で機密情報を入力しないよう注意を喚起した。OpenAIの利用規約にも、ユーザーの利用中に情報を収集すると記載されていますが、具体的な目的は明記されていません。EUのGDPR規制では個人情報データには忘れられる権利が求められており、AIによって取得されたデータはブラックボックスのように存在するモデルにトレーニングされるため、これは一部の欧州の弁護士からも疑問の声が上がっている。自動プロセス トレースで完全に削除します。
OpenAI利用規約における情報収集の説明
知的財産のコンプライアンス
AI はコンテンツをより迅速に作成する一方で、コンプライアンスの隠れた危険をもたらす可能性があるコンテンツの知的財産リスクを曖昧にします。
データの取得元からすると、トレーニングプロセス中に取得したデータは、対応する著作権のあるコンテンツである可能性があり、たとえば、オープンソースコードにはGPLライセンスを使用したコードが多数存在し、それに基づいたソフトウェアの二次リリースが行われています。 GPL ライセンス コードでは、ソフトウェア ソース コードの提供も必要です。そうでない場合は、侵害となります。Github Copilot が元のトレーニング データとまったく同じコードを提供する確率は 0.1% で、コードのこの部分には GPL と同様のオープン ソース ライセンスが適用される可能性があります。
「Quake 3」ゲームでは、効率の最適化のために特別な高速平方根逆数アルゴリズムが使用されており、これには理解できない魔法の数 0x5f3759df も含まれています。一部の開発者は、コメントに「高速逆平方根」を入力すると、GitHub Copilot が「Quake 3」でまったく同じコードを提供できることを発見しました。
コパイロットの完了には、Quake 3 ゲームの高速平方根逆数アルゴリズム コードが使用されます
生成されたコンテンツから判断すると、著作者として数えられるのは自然人、法人、または非法人組織のみであり、我が国の「著作権法」ではAIは著作者として数えられないため、生成されたコンテンツの著作権を保護することは困難ですAIによるものであり、その知的財産権はモデルに帰属します。開発者とユーザーの間で相違がある場合がありますので、利用規約の同意を参照する必要があります。たとえば、OpenAI の利用規約には、ユーザーが法的規定、利用規約の制限を遵守し、入力コンテンツの所有権を持っている限り、OpenAI は出力コンテンツのすべての権利、所有権、および利益をユーザー。
要約する
ChatGPTに代表される汎用大型モデルは急速に発展しており、AIGCの台頭によりソフトウェア開発モデルや製品形態も変化しており、ソフトウェア業界は変革を迎える可能性がある。
AI はソフトウェア サプライ チェーンの重要な部分となり、アプリケーション開発のプロセスでは、脆弱性コードの導入、使用中にプロンプト インジェクションによる攻撃を受け、出力結果が汚染され妨害されるなど、さまざまなセキュリティおよびコンプライアンスのリスクが導入される可能性があります。 ; それ自体にバックドア命令が存在する可能性があり、一度開けるとトロイの木馬となってカルテットを滅ぼす可能性がある; データプライバシー保護の観点からは、AIモデルは依然としてブラックボックスであり、個人情報が漏洩するリスクがあるAI モデルは、トレーニングおよびユーザー インタラクションの過程でのデータを、結果出力として著作権で保護されたコンテンツを使用する可能性が高く、AI によって生成されたコンテンツの知的財産保護は、既存の法律を完全には適用できません。
これらのリスクの存在はテクノロジーの適用を否定するものではなく、現実のリスクの出現はテクノロジーの適用の始まりを意味し、それが成熟する唯一の方法でもあります。
参考リンク
https://blog.symops.com/2022/08/31/amazon-codewhisperer
https://tv.cctv.com/2023/02/10/ARTIOriyjc8CgGHfG4kCoEZ8230210.shtml
https://arxiv.org/pdf/2108.09293.pdf?nylayout=pc
https://www.cnbeta.com.tw/articles/tech/1343655.htm
http://finance.people.com.cn/n1/2023/0210/c1004-32621303.html
無料のコード検出/インテリジェンス警告
Murphy Security は、プロフェッショナルなソフトウェア サプライ チェーン セキュリティ管理を提供するテクノロジー企業です。機能には、コード セキュリティ検出、オープンソース コンポーネント ライセンス コンプライアンス管理、クラウドネイティブ コンテナ セキュリティ検出、ソフトウェア コンポーネント分析 (SCA) など、豊富なセキュリティ ツールが含まれます。完全なソフトウェア開発セキュリティ機能 (DevSecOps) の構築に役立ちます。
同社のセキュリティ研究チームである Murphy Security Lab は、ソフトウェア サプライ チェーンのセキュリティ分野の技術研究に重点を置いており、オープンソース ソフトウェアのセキュリティ、プログラム分析、脅威インテリジェンス分析、およびエンタープライズ セキュリティ ガバナンスに重点を置いています。同社の中核チームは Baidu や Huawei などの企業から構成されており、エンタープライズ セキュリティ構築、セキュリティ製品開発、セキュリティ攻撃と防御において 10 年以上の経験があります。
無料のコードセキュリティ検出ツール: www.murphysec.com/?src=osc
IDE プラグインのドキュメント: www.murphysec.com/docs/guides…
無料情報購読: www.oscs1024.com/cm/?src=osc
Redis 7.2.0 がリリース、最も広範囲にわたるバージョンの 中国人プログラマーがギャンブル プログラムの作成を拒否、14 本の歯が抜かれ、全身の 88% が損傷、 Flutter 3.13 がリリース、 System Initiative はすべてのソフトウェアがリリースされると発表初の大 規模独立アプリ登場、Grace が「Doubao」に名前変更 Spring 6.1 は仮想スレッドと JDK 21 に対応 Linux タブレット StarLite 5: デフォルトの Ubuntu、12.5 インチ Chrome 116 正式リリース Red Hat デスクトップ再導入Linux開発、主要開発者が異動 Kubernetes 1.28正式リリース