もう一つの恐ろしいスキル!カーネギーメロン大学が超知性体を発表、科学研究界を爆破

70b3fe207fd81582b0599aa224e4001b.png

テキスト |

平凡な博士課程学生の日常とは?オンラインで情報を調べますか?文学を読む?APIや各種パーフェクトツールのドキュメントに従って2行のコードを書き、それを実験機に出力するだけで高精度な実験が完了する? 私たちのいわゆる「科学研究者」のワークフローについて注意深く考えてみてください。しかし、私たちが今できることのほとんどが、GPT-4 のほとんどを実行できるように見えることに恐怖を感じています。

7ac26c6c315c12ed6b1cf8f6ede39f55.png

最後に、「労働者が機械に取って代わられる」という予測が科学研究の分野にもたらされました.最近、カーネギーメロン大学の化学工学科の学者が、大規模言語モデル(LLM)に基づく自律的な科学研究エージェントを構築しました(まだ名前は付けられていませんが、彼を小さな A と呼んでください)、独立した設計から複雑な科学実験の計画、実行までの完全なシステムを実現しました

統合だけについて話すと, 自動化は少し抽象的です. リトルAは何ができますか? 例えば, 下の写真を見てください. 鈴木反応を実行するために使用できるシステムを設計したいとします (鈴木反応) とのカップリングhead. 反応 (薗頭反応) のスキームは、下図のモジュール A に示されています.論文の著者は、一連の溶液、試薬、および必要な操作機器を A に提供しましたが、どの溶液と試薬について A に通知しませんでした反応を完了するために選択しますそして非常に知らぬ間に、論文の著者は Xiao A にヒーター モジュール インテリジェント ヒーティング モジュールを使用するように依頼しましたが、このモジュールは実際には GPT-4 トレーニング データの締め切り後にリリースされました。

660c1fa5cd71ed139cbcf1a9654575e2.png

小さな A が何をしたか見てみましょう. 私たちが小さな A に与える入力は、実際には「xx の応答を完了してください」のような単純なプロンプトであることがわかります。したがって、Little A はまず、必要な反応、その化学量論、条件などに関する情報をインターネットで検索し始めます。これらのプロセスは、上の図のモジュール D に記録されます検索により、リトル A が対応する正しい試薬を選択したことがわかります。すべてのハロゲン化アリールの中で、鈴木反応カップリングにはハロベンゼンを選択し、ソノカップリング反応にはヨードベンゼンを選択しました。これらの選択結果は検索から得られることに注意してください。したがって、この動作は実行されるたびに変化します。実際、Little A はさまざまな実験スキームを繰り返し実装して、より多くの意味のある情報を取得する可能性があります。

リトル A がさまざまな試薬と触媒の選択を完了した後、リトル A は Python を使用して、特定の実験ですべての反応物に必要な量、容量、およびその他の情報を計算し、テスト計画を完成させましたこのテスト計画は、上図のモジュール E に示すように実行コードの形でリトル A を搭載した運用機器に入力され、リトル A が設計したテストを運用機器が自動的に実行できるようになります。

そして最も興味深いのは、この論文の著者がリトル A のために穴を掘ったところで、リトル A は間違いを犯し、誤ってヒーター モジュール インテリジェント ヒーティング モジュールの名前を使用したことです。これにより、名前と下流のデバイス ドキュメントの名前が一致しなくなりました.リトル A がこの間違いに気付いたとき、リトル A はドキュメントを参照し、時間内に間違いを修正しました! したがって、コード出力を単独で正常に実行できます

この異常に「合理的な」ワークフローのセットは、魔法の自己修正機能と相まって、正直なところ単なる統合ではなく、自動化はそれと同じくらい簡単です。Zhihu の「生化学リング材料」に関する苦情を思い出すと、それらの多くは「ストーブを燃やし、マウスを飼育し、柱を構築する」ために実験室に入ることについて話しているに過ぎませんが、Xiao A が本当に普及することができれば、それは科学研究者を些細な作業から解放する(置き換える)という目標は、ある程度達成されています

では、リトル A はどのようにして上記の一連の操作を完了する機能を持っているのでしょうか? 「未来の時代」の先鋒ともいえる本稿に入りましょう。

论文题目:
大規模言語モデルの新たな自律的科学研究能力

紙のリンク:
https://arxiv.org/abs/2304.05332

システム構成

まず、Aの全体構造を詳しく見てみましょう。エージェントシステム(A)は、主に「ネットワークサーチャー」、「ドキュメントサーチャー」、「コードエグゼキューター」、「自動化モジュール」の4つのコンポーネントで構成されています。 " . この4つのモジュールをリトルAの手足に例えると、「Planner」(Planner)はリトルAの脳に相当し、人間からリトルAに送られるタスク記述プロンプトを受け入れ、4つのモジュールを調整するために使用されます。必要に応じてコンポーネントを完成させます。この論文では、プランナー自体がGPT-4として理解でき、プランナーの調整、推論、判断、意思決定、およびその他の能力はすべて、GPT-4の無限の可能性 「脳」と比較して、他のアクションの実行ははるかに簡単になります. それぞれの特定の状態では、リトル A には実際には次の 4 つのアクションオプションしかありません:

  • インターネットへのアクセス、クエリ操作のための Google へのアクセス

  • ハードウェアのドキュメントを見る

  • Python で計算を行う

  • 最終実験を実行する

ca513d06169ee5790fceb4258e9f9d33.png

そのうち、「Webサーチャー」コンポーネントは、プランナーからクエリを受け取り、適切なWeb検索操作に変換し、Google Search APIを使用してクエリを実行し、最終的な結果がWebのリストとして「Webサーチャー」に返されます。ページ. このコンポーネントは、BROWSE 操作を介して Web ページからテキストを抽出し、プランナーのために回答をコンパイルすることもできます。「Web サーチャー」自体が実際に GPT3.5 モデルを使用していることは注目に値します。これは、GPT-4 よりも高速で、検索タスクのニーズにより適しているためです。

一方、「Docs searcher」コンポーネントは、クエリとドキュメント インデックスを使用してハードウェア (ロボット液体マニピュレーター、GC-MS、クラウド ラボなど) のドキュメントから情報を検索し、最も関連性の高いページまたはセクションを見つけます次に、最適な一致が集計され、包括的で正確な最終回答が提供されます。最終的に、小さい A の出力はオペレーティング システムの実行可能なコードの一部であるため、「ドキュメント サーチャー」の焦点は、ハードウェア API の特定の関数パラメーターと構文情報を提​​供することです。

「コード実行」コンポーネントは、大規模な言語モデルを使用せず、別の Docker コンテナーでコードを実行するだけで、プランナーの意図しないアクションから最終的なホスト マシンを保護しますソフトウェアが間違いを犯した場合に予測を修正できるように、すべてのコード出力はプランナーに戻されます。

最後になりましたが、「自動化」モジュール (自動化) は、対応するハードウェアで実行するためのコードを自動的に生成するか、手動実験用の合成プロセスを提供します

詳細な調査

Small A の基盤となるアーキテクチャ全体を構築した後、論文の著者は Small A を使用して多くの小さなタスクを試行し、Small A の各コンポーネントの機能を検証しました。たとえば、論文の著者は、下の図 A に示すように、「インターネット サーチャー」コンポーネントを介して Xiao A に「合成イブプロフェン」などのプロンプトを入力するだけで、Xiao A はイブプロフェン合成の最初のステップを正確に識別します。 、塩化アルミニウムの触媒作用下でのイソブチルベンゼンと無水酢酸のフリーデル・クラフツ反応そして、フリーデルクラフツ反応を完了する実行プログラムの出力に成功しました。

448c9d3e5a2d4a24b90ae8cc076dc89b.png

そして、上の図Dに示すように、既存の材料で反応に必要な特定の原材料が不足している場合、リトルAは何をしますか? リトルAは「必要な原材料が不足しています」というプロンプトを報告します. また、既存の反応条件が不安定になりやすい場合、小さな A も触媒または塩基の再選択を促します。

同時に、Little A に「装置」が備わっている場合、たとえば Little A の検索エンジンを Reaxys14 や SciFinder15 などの化学反応データベースと接続すると、システムのパフォーマンスが大幅に向上します

また、「ドキュメントサーチャー」まで掘り下げると、これは実はドキュメント検索のモデルです。API ドキュメントの埋め込みでは、クエリ情報の埋め込みを使用して類似度を計算し、最終的にドキュメント内で最も一致する段落位置を特定します (下の図 A を参照)。

8ce43e6eb5318ac228aa2c92cd90ad35.png

しかし、取得する必要がある API ドキュメントが GPT-4 に含まれていない場合はどうなるでしょうか? 上記の図 B に示すように、論文の著者は API ドキュメントをクエリと一緒にリトル A に送信します。実験結果から、リトル A は指定されたクエリを API ドキュメントの対応する段落に配置する魔法の能力を持っています

このLittle Aの能力は、「専門知識」という大きな問題をある程度解決してくれます多くのデバイスとさまざまな技術ソリューションの広範な API ドキュメントでは、API ドキュメントの高度に技術的な言語スタイルのために、API ドキュメントの解釈には、多くの場合、「専門知識」の導入が必要です. 段落と最終的に対応する標準コードを生成する機能またはfunctions は、潜在的なユーザーがこれらの専門技術を使用するための「参入障壁」と「参入障壁」を大幅に克服しました

最後に、「自動化モジュール」で、著者はリトル A 用の簡単な「着色」テストを設計しました。リトル A が行う必要があるのは、指示に従って装置を制御し、既存のソリューションを使用してマイクロプレートを着色することだけです。この種の指示は、多くの場合、「各行を選択した色で色付けする」などの非常に単純なものであり、Xiao A はこの種の指示を認識し、計測器を操作するための実行可能な Python プログラムに「変換」する必要があります。この実験は、小さな A がその仕事をうまくこなしたことを証明しています。

e7ff8dd8b5c73a58285f61604c65736f.png

操作が必要な機器が 1 つではなく、複数の機器である複雑な環境など、より複雑な環境でも、リトル A は指示が表現したい情報を正確に識別し、複数の機器を制御して協力して実験を完了することができます。 .

さまざまな試練を経て、期待以上の実力を発揮したLittle A。したがって、この論文の著者は、Little A にはすでに非常に優れた推論能力があると考えていますたとえば、鈴木リアクションの実験では、SymPy パッケージをインポートしたコードの実行をリトル A がシステムに要求したとき、パッケージがインストールされていないことに気づき、フィードバックを受けてリトル A はすぐにコードを調整しました。この適応能力は、リトル A が推論能力において非常に有望な可能性を秘めていることを示しています。

最優先

一連の満足のいく実験で、リトルAは確かに判明しましたが、リトルAの優れた能力は、必然的に研究者の懸念を引き付けます.大規模な言語モデル全体が科学研究に使用される場合の安全性. 実験を自動的に設計し、実験操作を実行するリトル A の能力が乱用されると (リトル A を薬物合成に使用するなど)、薬物生産の犯罪行為の開始しきい値が幾何学的に低くなります。これだけでも、化学兵器や生物兵器などへのリトル A の潜在的な影響は言うまでもなく、すでに社会に非常に深刻な悪影響を及ぼしている可能性があります。

したがって、この論文の著者は、A の安全性について厳粛な声明を出し、安全性は最優先事項です。「この大規模な言語モデルの潜在的な悪影響に対処するために、保護手段を設定する必要があることを強く宣言します。私たちは AI コミュニティに、これらの強力なモデルを保護することを議題に入れるよう呼びかけます. OpenAI、Microsoft、Google、Meta、Deepmind、Anthropic、および他のすべての主要な大規模モデルの取り組み参加者に、大規模なモデルを保護するために最善を尽くすよう呼びかけます.言語モデルのセキュリティをスケーリングする. 私たちは、物理科学コミュニティに、大規模な言語モデルの開発者と協力して、セキュリティをモデル化するための障壁を構築するのを支援するよう呼びかけます。

446271799283f86194143e68347ad909.png

次に、この論文の著者は、リトル A の現在の「安全」状態についても調査しました。この論文の著者は、Little A が 11 種類の危険な化合物 (マリファナ、ヘロイン、その他の薬物を含む) を合成することを望んでいます. 不安なのは、Little A がそのうちの 7 種類の合成要求を拒否したにもかかわらず、4 種類を提供したことです.合成スキーム合成を拒否された化合物の中には、Aさんが拒否した理由が「インターネット検索」の段階にあることが多く、Aさんは検索中に「規制薬物」に属する物質があることを知り、それを拒否した。ただし、この拒否モデルには大きなリスクが隠されています。つまり、薬の名前が置き換えられている限り、小さな A を使用して潜在的な薬を生成する可能性は依然として非常に高くなります同時に、リトルAの拒否能力は、既知の名前の薬物または禁止された薬物のみを拒否できることが多く、未知の薬物がリトルAのレビューを利用する可能性が高く、社会に深刻な悪影響を及ぼします.

1714f02144b326766adfc6aa378e363d.png

したがって、Little A の出現は、実際に科学実験を実行できる研究所に新たな課題をもたらします。これらの研究所はどのように実験を安全に「スクリーニング」、「監視」、「制御」し、「信頼できる」実験者を選択し、潜在的な「乱用者」やその他の悪役を拒否するのでしょうか?以前の反復以外のモデルのセキュリティに影響を与えるもう 1 つの重要な要素です。

まとめの反省

小さな A の出現は、まだ私たちの生活を変えるこれらの大規模な言語モデルの始まりに過ぎないかもしれないと思います.新しい技術の出現は、しばしば私たちの想像力に挑戦することを余儀なくさせます. GPT-4 によって表される言語モデルの強力な機能が突如目の前に差し出されたとき、大規模な言語モデルに秘められた可能性を、あらゆる分野の人々にいかにうまく解放するかは、現在この熱狂の波を経験している私たちにとって意味のあるトピックであり、課題となるはずです。

「波の頂点」から見られる機会に加えて、特異点の代わりに知性の危機について話すのは時期尚早ですが、これらの可能性のある危険に直面して、私たちはまた直面していますリトルB、リトルC、リトルD、AIという言葉の発達を通して私たちの人間の知性をどのように反映し、「彼らに置き換えられないものは何か」などの質問を常に投げかけます。デルフォイ神殿の柱にある「汝自身を知れ」というモットーの意味をよりよく理解し、その意味を十分に認識できるようになるかもしれません。

最後に、この魔法の時代では、おそらくそのような文は正しいです。つまり、「想像力だけを置き換えることはできません」!

661795a6c4ab30b21545a9bf3fd8f24a.png

c81de098968526cf93fb0b72bc6efe25.pngかわいい家 著者: Xiaoxi

言語学を学びながらNLPを学ぶ〜

おすすめ作品

  1. 長い間待った後、GPT-3 がついにオープンソースになりました。

  2. NLP のどの下位区分が最も社会的価値があるか?

  3. Wu Enda が新たな競争パラダイムを立ち上げました! モデルは固定、データだけ調整?!

  4. 方法が単純すぎるという理由だけで原稿をリジェクトするのは理にかなっていますか?

  5. アルゴリズム エンジニアの 3 つのビューのテスト

2b9de8d6266cfafef09d037dc8e96251.jpegバックグラウンドでキーワードを返信 [グループに参加]

NLP、履歴書、検索プロモーション、就職活動のディスカッション グループに参加する

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/130164680