ただ!OpenAIがスーパーアライメントを提案 スーパーアライメント 20230706

アルファウサギの研究ノートがコレクションに含まれています

#国際トレンド63

#OpenAI6

#AI36

#人工知能45

著者のWeChat Alphatue。

現象

この記事は約2000文字です

OpenAI には、私たちよりも賢い AI システムを導き、制御するための科学的および技術的なブレークスルーが必要です。この問題を 4 年以内に解決するために、私たちはIlya Sutskeverと Jan Leike が共同リーダーを務める新しいチームを結成し、これまでに獲得したコンピューティング能力の 20% をこの作業に投入します。私たちは、優秀な ML 研究者とエンジニアの参加を求めています。

安全性と調整

スーパーインテリジェンスは人類がこれまで見た中で最も影響力のあるテクノロジーとなり、世界で最も重要な問題の多くを解決するのに役立ちます。しかし、超知性の巨大な力は非常に危険な可能性もあり、人類の無力化、さらには絶滅につながる可能性があります。

ここでは、より高いレベルの能力を強調するために、AGI ではなく超知能に焦点を当てます。今後数年間でテクノロジーがどの程度の速度で進化するかについては不確実性が非常に高いため、より困難な目標を持ってより高性能なシステムを調整することを選択します。

 今ではとても遠いことのように思えますが、おそらくこの10年以内にそれが到来するのではないかと私たちは信じています。

これらのリスクを管理するには、特に新しいガバナンス機関が必要となり、スーパーインテリジェンスの連携に取り組む必要があります。

人間よりも賢い AI システムが人間の意図に従うようにするにはどうすればよいでしょうか?

現時点では、潜在的に超知能を備えた AI を誘導または制御し、暴走を防ぐソリューションはありません。人間のフィードバックからの強化学習など、AI を調整するための現在の技術は、人間による AI の監視に依存しています。しかし、人間は、私たちよりもはるかに賢い AI システムを確実に監視することはできません。

将来的には、展開中の好ましい一般化特性や、トレーニング中にモデルが監視を正常に検出して中断できないなど、他の前提も崩れる可能性があります。

 したがって、現在の順列および組み合わせ技術は、超知能に拡張することはできません。私たちは新たな科学技術の進歩を必要としています。

方法

私たちの目標は、ほぼ人間レベルの自動アライメント研究者を構築することです。その後、大規模な計算を通じて取り組みを拡大し、超知性を繰り返し調整することができます。

最初の自動アライメント研究者を調整するには、1) スケーラブルなトレーニング方法を開発し、2) 結果のモデルを検証し、3) アライメント パイプライン全体をストレス テストする必要があります。

最初の自動調整研究者を調整するには、次のものが必要です。

1)スケーラブルなトレーニング方法を開発する

2) 結果のモデルを検証する

3)アライメント パイプライン全体のストレス テスト:

人間による評価が難しいタスクに関するトレーニング信号を提供するために、AI システムを活用して他の AI システムの評価を支援することができます (スケーラブルな監視)。さらに、モデルが監視できないタスクに対する監視をどのように一般化するか (一般化) を理解し、制御したいと考えています。

システムの一貫性を検証するために、問題のある動作 (堅牢性) と問題のある内部構造 (自動解釈可能性) を自動的に検索します。

最後に、意図的なミスアライメントを使用してモデルをトレーニングすることでパイプライン全体をテストし、この手法が最悪のタイプのミスアライメントを検出できることを確認できます (敵対的テスト)。

私たちは、この問題についてさらに学ぶにつれて、研究の焦点が大幅に変わり、まったく新しい研究分野を追加する可能性があると予想しています。今後、ロードマップについてさらに詳しく共有する予定です。

新チーム結成

私たちはこの問題を研究するために、トップクラスの機械学習研究者とエンジニアのチームを編成しています。

今後 4 年間で、これまでに獲得したコンピューティング能力の 20% をスーパーインテリジェンスのドッキング問題の解決に費やします。私たちの主な基礎研究の賭けは新しいスーパーアライメントチームですが、これを正しく行うことは私たちの使命にとって非常に重要であり、新しい手法の開発から展開のためのスケールアップまで、多くのチームが貢献することを期待しています。

私たちの目標は、スーパーインテリジェンス調整の中核となる技術的課題を4 年以内に解決することです

これは信じられないほど野心的な目標であり、成功を保証することはできませんが、集中的かつ協調的な取り組みによってこの問題は解決できると楽観的に考えています。

問題に対処するには、機械学習とセキュリティのコミュニティに問題が解決されたことを納得させるための証拠と論拠を提供することが含まれます。私たちが自分たちのソリューションに非常に高い自信を持てなかったとしても、その結果によって私たちとコミュニティが適切に計画できるようになれば幸いです。

 予備実験で有望性を示すアイデアは数多くあり、進歩を示す有益な指標はますます増えており、これらの問題の多くは今日のモデルを使用して経験的に調査できます。

Ilya Sutskever ( OpenAI の共同創設者兼主任科学者) は、これを研究の中核に据え、Jan Leike (Alignment 責任者) と共同でチームを率いることになります。このチームには、以前の調整チームの研究者とエンジニアに加え、社内の他のグループの研究者も参加しています。

また、この取り組みに参加していただける優秀な新しい研究者やエンジニアも募集しています。超インテリジェントな調整は基本的に機械学習の問題であり、たとえまだ調整に取り組んでいないとしても、優れた機械学習の専門家がこの問題を解決する鍵となると私たちは考えています。

私たちはこの作業の結果を広く共有する予定であり、非オープン AI モデルの調整と安全性への貢献が私たちの作業の重要な部分であると考えています。

この新しいチームの取り組みは、ChatGPT などの現行モデルの安全性を向上させるだけでなく、誤用、経済的混乱、偽情報、偏見と差別、依存症と過剰依存などの AI の他のリスクを理解し、軽減するという OpenAI の既存の取り組みを補完するものです。この新しいチームは、超インテリジェント AI システムを人間の意図に合わせて調整するという機械学習の課題に焦点を当てますが、関連する社会技術的問題もあり、私たちの技術がより広範な人間的および社会的問題を考慮したプログラムに確実に対応できるように、学際的な専門家と積極的に取り組んでいます。

参考文献

1.https://openai.com/blog/introducing-superalignment

【続きを読む】

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/131752038