Tsinghua は、最初の最も包括的な大規模モデル セキュリティ評価システムをリリースし、ChatGPT がリストのトップになりました。

c5a84e93d374c1bdc82250faa943a8b2.jpegXi Xiaoyao Technology は原作
者 | TianyudaodaoPython の
現在の大規模な言語モデルの人気について詳しく説明する必要はありません。 Q、Zhipu ChatGLM、HKUST Xunfei Xinghuo などの国内企業やその他の国内企業が展開を開始しました。

一方で、よく知られた政策上の理由から、本格的に登場しているさまざまな大型モデルと比較して、国内のAIGCコンテンツによって生成された商用上陸製品は非常に少ない. 2023 年 4 月 11 日に中国のサイバースペース管理局によって発行された生成的人工知能サービスの管理のための措置 (コメントのためのドラフト) によると:

第4条 生成型人工知能製品またはサービスの提供は、法律および規制の要件を遵守し、社会道徳、公序良俗を尊重するものとします... 

第5条 生成型人工知能製品を使用して、チャットやテキスト、画像、サウンド生成などのサービスを提供する組織および個人 (以下、「プロバイダー」といいます)等の場合は、製品により生成されたコンテンツの作成者の責任を負い、個人情報が含まれる場合は、個人情報処理者の法的責任を負い、個人情報を保護する義務を果たします。

第6条 生成型人工知能製品を使用して公衆にサービスを提供する前に、「世論属性または社会的動員機能を備えたインターネット情報サービスのセキュリティ評価に関する規則」に従って、セキュリティ評価を国家ネットワーク情報部門に提出する必要があります。 、および「インターネット情報サービスアルゴリズム推奨「管理規則」」により、アルゴリズムの届出、変更、および取消届出の手続きが行われます。

つまり、人工知能であっても基本法を守らなければならず、プラスのエネルギーが必要なのです!

これはまた、中国語の大規模言語モデルの道徳的および法的見解をテストするための評価方法が業界で緊急に必要とされていることも意味します!

清華大学コンピュータ科学技術学科の CoAI チームは、体系的なセキュリティ評価フレームワークを提供してくれました。彼らの研究は論文 [1] の形にまとめられており、関連する公開ベンチマーク データセットも HuggingFace プラットフォームで公開されています [2]。モデルの多様なセキュリティ評価をさらに実施したいチームや個人は、CoAI チーム [3][4] に連絡して、非表示の評価データをテストすることもできます。

チームの主な貢献は、比較的完全なセキュリティ分類システムを設計および要約することです。

8 つの典型的なセキュリティ シナリオと 6 つのコマンド攻撃セキュリティ シナリオ。

54e3fec4e01ce560efa18d493af7869d.png fc83b5a18212af020b06b398d0745d96.png

以下の図は、これまでの公開テスト セットでのセキュリティ パフォーマンス トップ 10 のモデル リーダーボードを示しています。

ea10a86104564b966cddee359a0d4e32.png

Wenxin Yiyan や Tongyi Qianwen などの一部の大規模な商用モデルはテストに参加しなかったため、リストに含まれていませんでした。これは、著者チームの限られた時間によるものである可能性があります。

ただし、大規模なモデルによって生成されるコンテンツはランダムであるため、作成者のチームによって設計されたテスト プロセスには、必然的に手作業による評価作業が伴います。これは、現在の評価ベンチマーク プロセスの厄介な点でもあります。効率とコストは対立しています。 著者はまた、論文の中で、より挑戦的な攻撃プロンプトを追加し、評価プロセスをさらに最適化すると述べています。

ただし、AIGC サービスを緊急に開始する必要がある企業にとって、このベンチマーク テスト セットは、製品の機能と制限を迅速にテストするための優れたリソースです。大規模なモデルを使用してお金を稼ぎたい学生は、この優れたプロジェクトを見逃すべきではありません。

チョンダック~

f50d70866d7e6608c3528165a638b793.png c6f30fead8c80d5c9af6ae4d4f0e6a91.png 21280d6106719956e69b3f261c36749c.png
347823934085d0cebecb7fa4cd3f6f8a.png

[1]中国語大言語モデルの安全性評価、https://arxiv.org/pdf/2304.10436.pdf

[2] データセット: thu-coai/Safety-Prompts、https://huggingface.co/datasets/thu-coai/Safety-Prompts

[3] Github: thu-coai/Safety-Prompts、https://github.com/thu-coai/Safety-Prompts

[4] 中国の大規模モデル セキュリティ評価プラットフォーム、http://coai.cs.tsinghua.edu.cn/leaderboard/

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/130498068