OpenAI Super Alignment 4 か年計画を 5,000 語で説明: 定義、課題、手法

ガイド

スーパーインテリジェンスは両刃の剣であり、多くの重要な問題の解決に役立つ一方で、潜在的に人間の力を弱体化し、私たちの安全を脅かす可能性もあります。これらのリスクを管理するには、新しいガバナンス機関を確立し、AI モデルの調整に取り組むことが緊急に必要です。OpenAIは今年7月に初めてスーパーアライメントの概念を提案し、コンピューティングリソースの20%を投資し、4年をかけて超知能のアライメント問題を解決することを目的としたスーパーアライメント(Superalignment)システムを構築すると発表した。

e103557d4690bf13649fc83cbce9f341.png図:OpenAI公式サイトがスーパーアライメントシステムの構築開始を発表

OpenAI 公式チームの導入とマルチパーティ分析の継続的なリリースにより、スーパー アライメントの外観が徐々に、そして明確にみんなの前に提示されています。この記事では、既存の資料を組み合わせて、スーパー アライメントの概念、その理由と方法を紹介ます。このビジョンにより、人間の目標や価値観に沿った安全な AI の開発が促進され、今後もより多くの研究者がその仲間に加わることが期待されます。

スーパーアライメントとは何ですか

1.1 スーパーアライメントの目標

スーパーアライメントは人間レベルの自動アライメント研究者の構築を目指しています。目標は、アライメント関連の作業を可能な限り自動システムにオフロードすることです。LLM を使用したり、一般的な AI システムを構築したりする場合、人々は自分のスキルセットが人間と必ずしも同じではないことに気づきます。既存の言語モデルは翻訳や知識の保存に優れているなど、いくつかの点でより強力である可能性があります。ただし、AI システムは算術などの他のタスクでは比較的弱い場合があります。

したがって、研究者が直面している問題は、どのような種類のタスクを AI システムに任せるべきか、そしてどのような順序で任せるべきかということです。このように、システムは、AI システムに任せることのできないタスクに人間がより集中することを予測できます。その過程で、AI システムが作業全体に占める割合は増加し、人間の研究者はより効率的に実際の進歩を遂げることができるようになります。

第1段階では、研究者が機械学習モデルを実装し、実験を実施し、結果を観察できるようになることを期待している。第2フェーズでは、研究者らは、スケーラブルな監視を改善したり、解釈可能性を進歩させるためにどのような実験が必要かを特定するなど、より高度で広範な問題を解決できることを期待している。現在、第 1 段階では実りある研究が行われていますが、研究者たちはまだ第 2 段階を模索中です。

2e093d99a9afb1638f98df23c28547ed.png図: スケーラブルな監視を提供するために出力をシミュレートする GPT-4 の機能の例

1.2 スーパーアライメントの能力

関連する研究者にとって、自動位置合わせの長期的な目標は、モデルの創造性にあります。少なくとも言語モデル、つまり AI に関しては、人間よりも創造性が高いと OpenAI 関連研究チームは述べています。拡散モデルによって生成された画像や、事前にトレーニングされた基本モデルのサンプルを見ると、そこには多くの奇抜な点が含まれており、これは 1 人または小規模なチームからは得るのが難しい場合があります。したがって、個人では通常不可能である、分布全体から実際にサンプリングすることができます。長期的な目標に関しては、研究者は AI システムに明確に定義された小さなタスクを与えることができ、実際にそれをうまく実行できれば、将来的に非常に役立ちます。

現在、ChatGPT のアライメントは主に強化学習を通じた人間のフィードバックからトレーニングされていますが、この方法は人間がシステムの詳細な動作を実際に理解していることを基本的に前提としているため、すでに広範なコンセンサスとなっており、拡張することはできません。

システムが多数のアライメント研究、つまり何百万もの仮想人間が関与するタスクを実行する場合、すべての詳細と詳細なフィードバックを確認するのは困難になる可能性があります。しかし、現在の研究で使用されている方法は、これらの手順を拡張して、困難なタスクを実行できる、ほぼ人間に似たアライメント研究者を作成します。たとえば、スケーラブルな監視は、AI が人間によって強化されたフィードバックから学習する 1 つの方法です。

スーパーアライメントを実現する理由

スーパー アライメントの出現は、現在の生成 AI の隆盛によるもので、AI アライメントの能力に対する懸念が生じています。最近、Chris Olah は、AI 調整の難しさについて Anthropic チームが考えていることを説明する一連のツイートを投稿しました。この見解によれば、「位置合わせは非常に簡単」から「位置合わせは不可能」までのさまざまなシナリオが考えられ、AI アライメント研究はこれらのシナリオに徐々に対処し、有益な結果が得られる確率を高めるプロセスとみなすことができます。これに基づいて、AI アライメントの難易度のより詳細な区分が提供され、それに伴ういくつかの考慮事項が説明されます。

AI の安全性に関する現在の議論は、主に、潜在的な AI システムとその故障モードの詳細な概念、およびその安全性を確保する方法に焦点を当てています。DeepMind セキュリティ チームによる記事では、いくつかの障害モードの概要が説明されています。現在、サミー・マーティン氏は、これらのさまざまな脅威モデルは「調整の難しさ」の観点から理解できると述べ、AI の不調整のさまざまな原因を解決の容易さの順に並べ替え、 AI の技術的な安全介入を特定の障害と調整しようとしていると述べました。モードのシナリオは一致します。これは、この不確実性により、アライメント研究者間の議論の一部が理解しやすくなっているということを明確に示しています。

比較的単純なシナリオには、常識的な方法で目標を一般化して学習する AI モデルが含まれる可能性があります。例として、強化学習は人間のフィードバックや発見 AI を通じて潜在的な作家の中から選択する一方で、さまざまな複雑さの LLM を潜在的な作家のための生成フレームワークとして理解できます。この状況は「デフォルトの配置」と呼ばれることもあります。より困難なシナリオは、「ディープ スプーフィング」に似ている可能性があります。システムは、急速かつ予測不可能な方法で一般化し、以前の調整手法をすぐに時代遅れにしてしまいます。さらに、外部評価やレッド チームのテストで表面的には良い行動と同じように見える欺瞞的な報酬操作戦略も学習します。 、敵対的テスト、または解釈可能性チェック。

アライメントの問題を解決するシナリオをよりよく理解するために、サミー・マーティンは、以下の図に示すように、シナリオを 3 つのレベルに分けて理解しやすくしています。

492782c4efe4e5304a597e5e3f6fca1a.png図: さまざまな難易度でのスーパーアライメント

2.1 シンプルなシーン

調整が容易なシナリオでは、構造リスク、経済的影響、虐待、地政学への対処により多くのリソースを投入する必要があります。このシナリオでは、RLHF でトレーニングされたシステムは通常、過度に単純化されたプロキシの目標を正直かつ正確に追求します。具体的には、簡単なシーンを3つのレベルに分けることができます。

最初のレベルはデフォルトによる調整です。人工知能モデルを大規模に適用する場合、人工知能モデルが特定の危険な行動について指導または訓練されておらず、問題のある明らかに悪い目標が設定されていない場合、重大なリスクはもたらされません。超人的なシステムであっても、基本的には外部からの報酬や口頭での指示の常識的なバージョンに基づいて機能します。ここでの主なリスクは、トレーニング目標の悪用と、誤って指定された目標や反社会的な目標に向けた強力なモデルの強化学習です。

2 番目のレベルは人間のフィードバックからの強化学習です。大まかな指示や手動仕様の報酬関数だけでなく、幅広い状況で人間のフィードバックをより慎重に使用することによって、AI がさまざまなエッジケースで適切に動作することを確認する必要があります。強化学習を注意深く微調整すれば、良い結果が得られます。私たちが調整が非常に簡単であると考える理由の 1 つは、システム自体が人間によって与えられた正直で代表的な目標に向かって帰納的に偏っている場合です。この場合、彼らは、たとえそれが報酬を最大化するのに最適ではないとしても、単純で正直で従順な戦略を学ぶ傾向があります。

3 番目のレベルは、憲法的 AI です。人間のフィードバックは、AI を微調整するのに十分なほど明確かつ豊富ではありません。エッジケースは、AI によって提供されるシミュレートされた人間のフィードバックでカバーする必要があります。これが「AIフィードバックによる強化学習」の仕組みです。たとえ人間のフィードバックが、モデルが監督者の意図どおりにほぼ実行されることを保証するのに十分であるとしても、構造的な理由により、経済界に広く導入されているシステムは、実際に私たちが望むものを実際に捕捉することなく、粗雑で反社会的な代理目標を追求するように訓練されてしまう可能性があります。目標。

2.2 中程度のシーン

中程度のシナリオは、行動セキュリティが十分ではなく、革新的な AI を生成する最も可能性の高い方法が、危険な欺瞞的な規制不全につながる場合です。この場合、システムは私たちの利益に反して機能しますが、便利で安全なふりをします。この状況では、調整作業の取り組みを強化し、スケーラブルな監視、調整研究における AI 支援、説明可能性ベースの教師付きプロセスなどの実現可能な戦略を模索する必要があります。また、主導的なプロジェクトがこれらのソリューションを実際に実装するのに十分な時間を確実に確保し、政府や市民社会と協力して全体的な戦略的状況を変更し、不整合な AI のリスクを取り除くためにガバナンスへの介入にも焦点を当てる必要があります。具体的には、中シーンには 4 つのレベルが含まれています。

最初のレベルはスケーラブルな監視です。人間が監視できない問題であっても、人間と同様の監視が人工知能に対して実行できることを保証する必要があります。したがって、憲法上の AI とは異なり、AI が人間よりも効果的に人間流の監視を適用できるようにする方法が必要です。

2 番目のレベルは、AI 研究支援によるスケーラブルな監視です。現在の段階では、前のレベルで導入されたものと同様の手法を使用して AI を調整し、教師あり手法に関する研究を実施させ、人間の理解を強化します。その後、この研究を使用して、監視プロセスを改善したり、トレーニング中の AI の動作に対する監視 AI の理解を向上させたりします。ここでの主なリスクは、人間のフィードバックが調整された ASI システムにとって明確な信号ではないため、強化する必要があることです。状況認識型の AI システムもデフォルトで欺瞞的な人間シミュレーターを生成しますが、この傾向は超人的な行動フィードバックによって打ち消すことができます。

3 番目のレベルは、高度な解釈可能技術を使用した監督です。監督プロセスでは、概念的または機械的な解釈可能ツールが使用されます。欺瞞的な行為に関連する AI 内部プロセスは、上記 2 つのレベルで開発された AI または人間 + AI 監督者によって検出および処罰されます。ここでの重要なリスクは、

4 番目のレベルは、ミスアライメントを理解するための潜在的に壊滅的なシステムの実験です。このレベルでは、上記の段階のテクニックを使用したとしても、AI システムは依然として日常的に監視を破り、望ましくない動作を示し続けます。彼らは、内部プロセスを変更したり、安全に動作しているように見せる「トレーニング ゲームをプレイする」ことによって、解釈ツールによる検出を回避します。ただし、重要なのは、これらのシステムを引き続き制御できるということです。したがって、これらの AI システムで (危険な可能性がある) 実験を実施して、導入後にどれだけ一般化できるかを確認することができます。ここでは、解釈可能性と監視ツールを適用し、人工知能の誤った一般化と報酬クラッキング動作を誘発しようとします。ただし、教師ありトレーニングを使用してこれらの行動を排除しようとするわけではありません。その代わりに、私たちはレッドチームのようなテクニックを通じてその発生の基礎を理解しようと努め、ずれがどのように、そしてなぜ生じるのかについて実践的なヒントと新しい理論的洞察を学び、新しい軽減方法を開発できるようにします。

2.3 困難なシナリオ

対照的に、革新的な AI に適応することが非常に難しいと考える場合、今後数年、さらには数十年の研究努力では十分な自信が得られない可能性があります。実際に調整が非常に難しい場合は、最先端のシステムに堅牢なテストと説明可能性の手法を適用して、不確実性を軽減し、悲観的なシナリオの現実性を証明し、変革的な AI への進歩を止める勢いを築く必要があります。具体的には、難しいシナリオは 2 つのレベルに分けることができます。

最初の層は、ミスアライメントを理解するための理論的研究です。問題となる動作はすべて、発生が早すぎて対処が間に合わないか、システムの導入後に初めて現れるため、以前の実験は役に立たないか、安全ではありません。このレベルでは、AI モデルが学習をどのように一般化するかについての事前知識が必要です。これらの基本的な洞察が新しい位置合わせ技術のインスピレーションとなることが期待されています。

第 2 層は、根本的に新しいパラダイムを考え出す (深層学習の放棄) です。この見解によれば、深層学習システムに関する基本的な要素を変更したとしても、それを調整することはできません。ここでの重要な課題は、システムが突然新しい概念とより高度なインテリジェンスと汎用性を獲得し、以前の調整技術が時代遅れになる「急激な変化」が起こっていることです。大幅な変革後のシステムは超知能化されており、安全に実験したり制御したりすることはできません。

現在のアラインメントのレベルが低いからこそ、OpenAI はスーパー アラインメントを実現するために多大な人的資源と物的リソースを投資することを決定しました。

スーパーアライメントを実現する方法

Superalignment チームは、OpenAI の共同創設者である Ilya Sutskever 氏と Jan Leike 氏が共同リーダーを務めています。OpenAI Twitter が公開した情報から判断すると、現在会員数は多いようです。超調芯システムを構築するには、開発チームが一連の作業を行う必要があります。

3.1 スケーラブルなトレーニング方法

まず、スケーラブルなトレーニング方法を開発する必要があります。このアプローチでは、AI システムを活用して他の AI システムの評価を支援し、人間が監督できないタスクまで AI モデルの監督機能を拡張します。

スケーラブルなトレーニング方法を開発するときは、既存の AI システムを他のシステムを評価するためにどのように活用できるかを考慮する必要があります。これには、さまざまな種類のシステムを正確に評価するための評価指標の設計や評価アルゴリズムの開発が含まれる場合があります。

さらに、AI モデルの監視機能を人間が監視できないタスクに拡張する方法についても考える必要があります。これは、AI モデルが人間の監督なしで自ら学習し、改善できることを意味します。この目標を達成するには、ラベルのないデータから AI モデルを学習させることで、教師なしタスクにおける AI モデルのパフォーマンスを向上させる、いくつかの自己教師あり学習方法を検討する必要があるかもしれません。現時点では、モデル支援評価と人間による評価を組み合わせた方が、純粋な人間による評価よりも優れた結果が得られることが確認されています。

7434e67b65a5b8f64e51fa804b49baa4.png図: モデルの自己評価により人間の監督が改善される

3.2 検証体制

スーパーアライメント システムの構築には、システムの検証も必要ですシステムの一貫性を検証することは非常に重要であるため、開発プロセス中に問題のある動作や内部構造を自動的に検索し、システムの堅牢性と説明可能性を確保します。

堅牢性とは、さまざまな不確実性や異常な状況に直面してもシステムが実行できる能力を指します。システムの堅牢性を検証するために、考えられるさまざまな状況をシミュレートし、システムの動作を観察する一連のテスト ケースを設計します。これらのテスト ケースには、入力データの変更、ノイズの存在、環境条件の変化などが含まれる場合があります。システムの動作を分析および評価することで、さまざまな状況におけるシステムの問題を発見し、アルゴリズムとモデルを調整してシステムの堅牢性を向上させることができます。

一方、解釈可能性とは、システムの内部構造と意思決定プロセスが人間によって理解および説明できるという事実を指します。システムの解釈可能性を検証するために、システムの動作原理を詳細に分析し、システムの内部構造が合理的であるかどうかを検証するいくつかの実験を計画します。システムの意思決定プロセスを観察し、モデルの重みと特徴の重要性を分析し、システムを段階的に説明することで、システムの説明可能性を確保できます。現在、OpenAI は GPT-2 から GPT-4 までのニューロンを説明しており、解釈可能性の予備的な試みとして使用できます。

420dbcda055aa8c19f4e670543656982.png図: GPT-4 は説明を自動生成します

3.3 ストレステスト

アライメント パイプライン全体のストレス テストは、ハイパーアライメント システムを構築する上で重要なステップです。このステップの目的は、不整合なモデルを使用してパイプライン全体をテストし、提案された方法が最も深刻なタイプの不整合、つまり敵対的テストを検出できることを確認することです。

敵対的テストは、システムの弱点や脆弱性に対してテストする方法です。敵対的テストは、さまざまな悪意のある動作や攻撃をシミュレートすることで、システム内の潜在的な問題を発見し、対応する措置を講じてシステムの堅牢性とセキュリティを向上させるのに役立ちます。

アライメント パイプライン全体のストレス テストを行う場合、さまざまなアライメントされていないモデルを使用して、さまざまな敵対的な状況をシミュレートします。これらのモデルには、意図的に改ざんされた情報、間違った注釈、一貫性のないセマンティクスなどが含まれる場合があります。これらのモデルをアライメント パイプラインに入力し、システムの動作と出力を観察します。

システムの動作を分析および評価することで、システムが位置ずれの種類を正しく検出し、これらの状況に適切に対処できるかどうかを判断できます。敵対的テスト中にシステムが不安定または不正な動作を示した場合、システムの堅牢性と適応性を向上させるためにさらに調整と最適化を行います。

4. まとめ

一般に、OpenAI が描く超調整の青写真は、誰もが楽しみにし、憧れる価値があります。私たちの現在のテクノロジーはまだこの理想には程遠いですが、研究者が超連携した機能を備えた AI システムを開発できると信じる理由があります。同時に、研究者らはAIが自分たちの仕事を代替することを懸念している。しかし、AI アシスタントが作業の 99% または 99.9% を実行でき、残りのコア作業のみを処理すればよいとしても、作業効率は大幅に向上し、より強力な構築をより簡単かつ迅速に行うことができます。人工知能。

参考リンク

https://openai.com/blog/introducing-superalignment

https://80000hours.org/podcast/episodes/jan-leike-superalignment/#highlights

https://www.lesswrong.com/posts/EjgfreeibTXRx9Ham/ten-levels-of-ai-alignment-difficulty

https://arxiv.org/abs/2206.05802

https://openai.com/research/ language-models-can-explain-neurons-in- language-models

Zhiyuan コミュニティのその他のコンテンツ

おすすめ

転載: blog.csdn.net/BAAIBeijing/article/details/132573835