DeepMindの最新研究がNatureに掲載され、AI時代の科学研究の新たなパラダイムを明らかにし、未知の領域を開拓し、新たな課題をもたらしています

写真

出典 | 新志源ID | AI時代

AIがさまざまな科学分野と結合することで、可能性と課題に満ちた技術革命が起きています。

AI は、理論を探索し、実験を計画し、データを分析することにより、私たちが知っているような科学的発見を大幅に推進します。

写真

8 月 2 日、Google チームの研究者らは、科学的発見における AI の応用と進歩をまとめた研究論文を Nature—Scientific Discovery in the Era of Artificial Intelligence に発表しました。

写真

論文アドレス: https://www.nature.com/articles/s41586-023-06221-2

データがどのように収集、変換、理解されるかは、科学的な洞察と理論を開発するための基礎となります。

2010 年代初頭のディープラーニングの出現により、これらの科学的発見プロセスの範囲と野心は大幅に拡大しました。

人工知能は科学分野全体でますます応用されており、大規模なデータセットの統合、測定値の改良、実験のガイド、データと一致する理論空間の探索、科学ワークフローと統合する実用的で信頼性の高いモデルの提供を行い、それによって自己発見を達成します。

写真

データの収集と分析は科学的な理解と発見の基礎であり、定量的手法と新興テクノロジーという科学の 2 つの中心的な目標です。

1950 年代のデジタル化の導入により、科学研究におけるコンピューターの普及への道が開かれました。

2010 年代以降、データ サイエンスの台頭により、AI が大規模なデータセットから科学的に関連するパターンを特定できるようになり、貴重な指針を提供できるようになりました。

科学的な実践とプロセスは科学研究の段階によって異なりますが、AI アルゴリズムの開発は従来サイロ化されていた分野にまたがっています。

このようなアルゴリズムは科学研究の設計と実行を強化することができ、研究者にとって不可欠なツールになりつつあります。

写真

科学的発見は、仮説形成、実験計画、データ収集、分析など、相互に関連するいくつかの段階を含む多面的なプロセスです。

最近、50 年前のタンパク質の折り畳み問題の解明や、人工知能によって駆動される数百万の粒子を含む分子システムのシミュレーションなど、科学における AI の最新の進歩により、人工知能が困難な科学的問題を解決できる可能性が証明されました。

他の新しいテクノロジーと同様、AI4Science の成功は、AI4Science を日常業務に統合し、その可能性と限界を理解できるかどうかにかかっています。

科学的発見プロセスにおける AI の広範な導入を妨げる障壁には、発見プロセスの各段階に特有の内部要因と外部要因、および手法、理論、ソフトウェア、ハードウェアの有用性と誤用の可能性に関する懸念が含まれます。

この論文では、研究者らは人工知能科学の発展を調査し、重要な疑問に対処します。

AI を活用した科学研究データの収集と管理

実験プラットフォームによって収集されるデータセットのサイズと複雑さの増大により、科学研究は、高速で生成されたデータを選択的に保存および分析するために、リアルタイム処理とハイパフォーマンスコンピューティングへの依存がますます高まっています。

データの選択

一般的な粒子衝突実験では、1 秒あたり 100 テラバイトを超えるデータが生成されます。このような科学実験は、既存のデータ伝送およびストレージ技術の限界を押し上げています。

これらの物理実験では、生の機器データの 99.99% 以上がバックグラウンド イベントであり、データ レートを管理するためにリアルタイムで検出して破棄する必要があります。

将来の科学研究のために稀なイベントを特定するために、深層学習アプローチは、事前にプログラムされたハードウェア イベント トリガーを、圧縮プロセス中に見逃された可能性のある予期しない現象や稀な現象を検出する「異常値を検索」するアルゴリズムに置き換えます。

バックグラウンド プロセスでは、ディープ オートエンコーダーを使用してモデルを生成できます。

オートエンコーダーは、バックグラウンド分布に属さない、これまでに見られなかった信号 (まれなイベント) に対して、高い損失値 (異常スコア) を返します。教師あり異常検出とは異なり、教師なし異常検出には注釈が必要なく、物理学、神経科学、地球科学、海洋学、天文学で広く使用されています。

データの注釈

教師ありモデルのトレーニングには、モデルのトレーニングをガイドし、入力からターゲット変数の関数または条件付き分布を推定するための教師付き情報を提供するアノテーションを含むデータセットが必要です。

生物学では、実験的にラベルを生成するのは非常に難しいため、新たに特徴付けられた分子に機能ラベルや構造ラベルを割り当てる技術は、教師付きモデルの下流トレーニングに不可欠です。

たとえば、次世代配列決定技術の進歩にも関わらず、配列決定されたタンパク質のうち生物学的機能の注釈が付けられているのは 1% 未満です。

もう 1 つのデータ ラベル付け戦略は、人間がラベル付けしたデータでトレーニングされたエージェント モデルを使用してラベルのないサンプルにラベルを付け、これらの予測された疑似ラベルを使用して下流の予測モデルを監視することです。

対照的に、ラベルの伝播では、特徴の埋め込みに基づいて構築された類似性グラフを介して、ラベルがラベルのないサンプルに拡散されます。

自動ラベル付けに加えて、アクティブ ラーニングでは、手動でラベル付けする最も有益なデータ ポイントや、実行する最も有益な実験を特定することもできます。

このようにして、専門家が提供するより少ないラベルを使用してモデルをトレーニングできます。データラベル付けのもう 1 つの戦略は、ドメインの知識を使用してラベル付けルールを策定することです。

データ生成

トレーニング データセットの品質、多様性、サイズが向上するにつれて、深層学習のパフォーマンスは向上し続けています。

より良いモデルを作成する効果的な方法は、自動データ拡張と詳細な生成モデルを通じて追加の合成データ ポイントを生成することにより、トレーニング データセットを拡張することです。

このようなデータ拡張を手動で設計することに加えて、強化学習手法では、柔軟で下流モデルから独立した自動データ拡張戦略を発見できます。

変分オートエンコーダー、敵対的生成ネットワーク、正規化フロー、拡散モデルなどの深層生成モデルは、最適化された分布から基礎となるデータ分布とサンプル トレーニング ポイントを学習できます。

敵対的生成ネットワークは、多くの領域でリアルな画像を合成できるため、科学画像に役立つことが証明されています。

確率的プログラミングは生成モデルの新しい技術であり、データの生成モデルをコンピューター プログラムとして表現します。

科学データの意味のある表現を学習する

ディープラーニングは、さまざまな抽象レベルで科学データの意味のある表現を抽出し、通常はエンドツーエンド学習を通じて研究を導くためにそれらを最適化できます。

高品質の表現では、データをシンプルかつ理解しやすく保ちながら、データからできる限り多くの情報を保持する必要があります。

科学的に意味のある表現は、コンパクトで識別力があり、基礎となる変数を区別でき、複数のタスクにわたって一般化できる基礎となるメカニズムをエンコードできる必要があります。

ここで研究者らは、これらの要件を満たすための 3 つの新しい戦略、つまり幾何事前分布、自己教師あり学習、および言語モデリングを紹介します。

幾何学的事前分布

幾何学と構造は科学分野で中心的な役割を果たすため、学習表現に「幾何学的事前分布」を統合することが効果的であることが示されています。

対称性は幾何学において広く研究されている概念です。これは、不変性と算術差の観点から数学関数の動作を記述し、一連の変換の下でのニューラル特徴エンコーダーの動作を表すことができます。

科学的な画像解析では、オブジェクトは画像内で変換されても変化しません。これは、入力ピクセルが変換されると等価に変化するため、画像セグメンテーション マスクは変換的に等変であることを意味します。

モデルに対称性を組み込むと、トレーニング サンプルが増加するため、限られたアノテーション付きデータで AI に利益をもたらすことができ、モデルのトレーニング中に発生した入力とは大きく異なる入力に対する外挿予測を改善できます。

幾何学ディープラーニング

グラフ ニューラル ネットワークは、基礎となる幾何学的構造とリレーショナル構造を備えたデータセットに対するディープ ラーニングの主要なアプローチとして登場しました。

大まかに言うと、幾何学的な深層学習には、関係パターンの発見と、ニューラル情報転送アルゴリズムによるグラフおよび変換セットの形式でのローカル情報のエンコードが含まれます。

写真

科学データの意味のある表現を学ぶ

自己教師あり学習

モデルのトレーニングに使用できるラベル付きサンプルが少数しかない場合、または特定のタスクのデータにラベルを付けるコストが法外に高い場合、教師あり学習は十分ではない可能性があります。

この場合、ラベル付きデータとラベルなしデータの両方を活用することで、モデルのパフォーマンスと学習を向上させることができます。

自己教師あり学習は、明示的なラベルに依存せずにモデルがデータセットの一般的な特性を学習できるようにする手法です。

自己教師あり学習は、大規模なラベルなしデータセットで転送可能な特徴を学習し、その後、小さなラベル付きデータセットでモデルを微調整して下流タスクを実行するための重要な前処理ステップです。

科学分野の幅広い知識を備えたこの事前トレーニング済みモデルは、さまざまなタスクに適用できる汎用予測子であるため、アノテーションの効率が向上し、純粋に教師ありの手法を上回ります。

言語モデリング

マスクされた言語モデリングは、自然言語と生物学的シーケンスの自己教師あり学習のための一般的な方法です。

自然言語と生物学的シーケンスの処理が進化し続けるにつれて、それらはお互いの発展に情報を与え合います。

トレーニング中の目標はシーケンス内の次のトークンを予測することですが、マスクベースのトレーニングでは、自己教師ありタスクは双方向シーケンス コンテキストを使用してシーケンス内のマスクされたトークンを回復することです。

タンパク質言語モデルは、構造的および機能的特性を捕捉し、ウイルス変異体の進化的適合性を評価するためにアミノ酸配列をコード化できます。

変圧器のアーキテクチャ

トランスフォーマーは、任意のトークン ペア間の相互作用を柔軟にシミュレートすることでトークン シーケンスを処理できるニューラル アーキテクチャ モデルであり、リカレント ニューラル ネットワークを使用してシーケンスをモデル化する以前の取り組みを上回ります。

Transformer はグラフ ニューラル ネットワークと言語モデルを統合しますが、Transformer の実行時間とメモリ フットプリントはシーケンスの長さに応じて二次関数的にスケールする可能性があり、結果としてモデリングが長距離になり、線形化されたアテンション メカニズムは効率の点で課題が生じます。

したがって、教師なしまたは自己教師ありの生成事前トレーニング変換器が広く使用され、その後パラメーター効率の高い微調整が行われます。

神経演算子

標準的なニューラル ネットワーク モデルは、データの分散が固定されていることを前提としているため、科学的アプリケーションには適切ではない可能性があります。

このアプローチは、さまざまな解像度やグリッドで収集された多くの科学データセットには適用できません。

さらに、データは多くの場合、連続領域の基礎となる物理現象からサンプリングされます。

ニューラル演算子は、関数空間間のマッピングを学習することで、離散化の影響を受けない表現を学習します。

ニューラル オペレーターは離散化不変です。これは、ニューラル オペレーターがあらゆる離散化入力を処理でき、メッシュ リファイン中に限界に収束することを意味します。

ニューラル オペレーターがトレーニングされると、再トレーニングすることなく任意の解像度で評価できます。対照的に、標準ニューラル ネットワークのパフォーマンスは、展開中のデータ解像度がモデルのトレーニング時の解像度から変化すると低下します。

AIベースの科学仮説生成

検証可能な仮説は科学的発見の中心です。

科学的仮説のブラックボックス予測子

科学的調査のための有望な仮説を特定するには、多くの候補シナリオを効率的に検討し、下流のシミュレーションと実験の成果を最大化するシナリオを選択する必要があります。

創薬では、ハイスループットのスクリーニングで数千から数百万の分子を評価でき、アルゴリズムによって実験的に研究する分子に優先順位を付けることができます。関連する分子特性や観察に適合する記号式など、実験の有用性を予測するためにモデルをトレーニングできます。

ただし、多くの分子では、これらの予測因子に関する実験的事実データが入手できない場合があります。

したがって、ノイズの多い、限定された、または不正確な監視がトレーニング信号として使用される、弱教師付き学習方法を使用してこれらのモデルをトレーニングできます。

これらの方法は、人間の専門家による注釈、シリコンでの高価な計算、またはより忠実度の高い実験をコスト効率よく置き換えることができます。

写真

AI による科学的仮説の生成

高忠実度のシミュレーションで訓練された AI 手法を使用して、大規模な分子ライブラリを効率的にスクリーニングしてきました。

これらのプロセスの効率をさらに向上させるために、AI が選択した候補を中スループットまたは低スループットの実験にフィードし、実験フィードバックを使用して候補を継続的に改良することができます。

結果はアクティブ ラーニングとベイジアン最適化を使用して AI モデルにフィードバックできるため、アルゴリズムの予測を改善し、最も有望な候補に焦点を当てることができます。

AI 手法は、仮説に分子などの複雑なオブジェクトが含まれる場合に非常に価値があります。

たとえば、タンパク質のフォールディングに関しては、AlphaFold2 はアミノ酸配列に基づいてタンパク質の 3 次元原子座標を予測でき、タンパク質の構造がトレーニング データ内のタンパク質と異なっていても、その精度は原子レベルに達することさえあります。セット。

このブレークスルーは、RoseTTAFold106 など、さまざまな AI 駆動のタンパク質フォールディング法の開発につながりました。

人工知能手法は、順方向問題に加えて、一連の観察結果を生成する原因要因を理解することを目的とした逆方向問題でも使用されることが増えています。

逆フォールディングや固定バックボーン設計などの逆問題では、何百万ものタンパク質構造でトレーニングされたブラックボックス予測子を使用して、タンパク質バックボーンの 3 次元原子座標からアミノ酸配列を予測できます。

ただし、このようなブラックボックス AI 予測子には大規模なトレーニング データセットが必要であり、既存の科学的知識への依存度は低下しますが、解釈可能性は限られています。

組み合わせ仮説空間のナビゲート

データに適合するすべての仮説をサンプリングするのは気が遠くなる作業ですが、適切な仮説を見つけることは管理可能な目標であり、最適化問題として定式化できます。

人間が設計したルールに依存する従来の方法と比較して、人工知能戦略を使用すると、各検索のリターンを推定し、より価値の高い検索方向に優先順位を付けることができます。

通常、エージェントは強化学習アルゴリズムを使用してトレーニングを受けてポリシーを学習します。

エージェントは、探索空間内で報酬シグナルを最大化するアクションを取ることを学習します。報酬シグナルは、生成された仮説やその他の関連基準の品質を反映するように定義できます。

最適化問題を解決するには、進化的アルゴリズムを使用して記号回帰タスクを解決します。このアルゴリズムは、初期解セットとしてランダムな符号則を生成します。

世代ごとに、候補解はわずかに変化します。

このアルゴリズムは、何らかの変更により、以前の解よりも観察に適合する符号付き法則が生成されるかどうかをチェックし、最適な解が次世代に保持されます。

ただし、強化学習手法がこの標準的な戦略に徐々に取って代わりつつあります。

強化学習では、ニューラル ネットワークを使用して、事前定義された語彙から数学記号を追加し、学習したポリシーを使用して次にどの記号を追加するかを決定することにより、数式を順次生成します。

数式は解析木として表現されます。学習戦略は解析ツリーを入力として受け取り、どのリーフ ノードを展開するか、どのシンボルを追加するかを決定します。

ニューラル ネットワークを使用して数学の問題を解決するもう 1 つの方法は、数式をバイナリ シンボルのシーケンスに変換することです。

ニューラル ネットワーク戦略は、確率の順にバイナリ文字を一度に 1 つずつインクリメントします。

この方法は、予想を反駁する能力を測定する報酬を考案することにより、数学的問題の事前知識がなくても数学的予想を反駁する方法を見つけることができます。

組み合わせ最適化は、分子設計の各ステップが個別の意思決定プロセスとなる、望ましい薬物特性を持つ分子の発見などのタスクにも適用できます。

このプロセスでは、部分的に生成された分子グラフが学習ポリシーへの入力として与えられ、新しい原子をどこに追加するか、および分子内の選択された位置にどの原子を追加するかについて個別の選択を行います。

このプロセスを繰り返し実行することにより、戦略は可能な分子構造の範囲を生成し、ターゲット特性への適合性に基づいて評価します。

AI エージェントは、最初は型破りに見えても、結果的に効果的であることが判明するアクションを予測するポリシーを学習します。

たとえば数学では、教師ありモデルは数学的オブジェクト間のパターンと関係を特定し、直観を導き、推測を生成するのに役立ちます。

これらの分析は、これまで知られていなかったパターン、さらには世界の新しいモデルを示しています。

ただし、強化学習手法は、エージェントがうまく機能する一連のアクションを見つけると、局所最適化に陥る可能性があるため、モデルのトレーニング中に目に見えないデータに対してうまく一般化できない場合があります。

一般化を改善するには、新しい設定や変更された設定でエージェントのパフォーマンスを向上させるために、より広範囲の検索軌跡を収集するための何らかの探索戦略が必要です。

微分可能仮説空間の最適化

科学的仮説は、物理学における記号式や製薬および材料科学における化合物など、個別のオブジェクトの形をとることがよくあります。

組み合わせ最適化手法はこれらの問題の一部で成功していますが、微分可能空間は局所最適を効率的に見つけることができる勾配ベースの手法に適しているため、最適化に使用することもできます。

勾配ベースの最適化手法を使用できるようにするには、2 つの手法がよく使用されます。

1 つ目は、離散候補仮説を潜在変数空間内の点にマッピングする VAE などのモデルを使用することです。

2 番目のアプローチは、離散仮定を微分可能空間で最適化できる微分可能なオブジェクトに緩和することです。

この緩和は、離散変数を連続変数に置き換えたり、元の制約のソフト バージョンを使用したりするなど、さまざまな形を取ることができます。

物理学におけるシンボリック回帰アプリケーションでは、構文 VAE を使用します。これらのモデルは、文脈自由文法を使用して離散記号式を解析ツリーとして表し、解析ツリーを微分可能な潜在空間にマッピングします。

次に、ベイジアン最適化を使用して、式が構文的に有効であることを確認しながら、符号則の潜在空間を最適化します。

多くの科学分野では、仮説の空間が実験で調査できる空間よりもはるかに大きくなることがあります。

したがって、これらのほとんど未踏の領域で高品質の候補ソリューションを効率的に検索して特定する方法が緊急に必要です。

AI を活用した実験とシミュレーション

科学的仮説を実験的に評価することは、科学的発見にとって重要です。

ただし、実験室での実験は法外に高価で非現実的な場合があります。

コンピュータ シミュレーションは、実験よりも効率的かつ柔軟であるという利点を備え、有望な代替手段として浮上しています。

シミュレーションは現実世界のシナリオをシミュレートするために手作りのパラメーターと先駆的なアプローチに依存していますが、物理的な実験と比較すると、精度と速度の間にはトレードオフがあり、基礎となるメカニズムの理解が必要です。

しかし、ディープラーニングの出現により、効率的なテストのための仮説を特定して最適化したり、観察結果を仮説に結び付ける機能をコンピューターシミュレーションに提供したりすることで、これらの課題に対処できるようになりました。

科学的仮説を効率的に評価する

AI システムは、従来の科学的手法を強化し、必要な実験数を減らし、リソースを節約できる実験計画および最適化ツールを提供します。

具体的には、AI システムは、実験テストの 2 つの重要なステップ、つまり計画とガイダンスを支援できます。

従来の方法では、これらの手順は試行錯誤を必要とすることが多く、非効率的で費用がかかり、場合によっては生命を脅かす場合もあります。

AI イニシアチブは、実験を設計し、効率を最適化し、未知の領域を探索するための体系的なアプローチを提供します。

同時に、AI ガイダンスは実験プロセスを収量の高い仮説に向けて導き、システムが以前の観察から学習して実験プロセスを調整できるようにします。

これらの AI 手法は、モデル構築のためのシミュレーションと事前知識に基づくことも、モデル構築のための純粋な機械学習アルゴリズムに基づくこともできます。

AI システムは、リソースの使用を最適化し、不必要な調査を削減することで実験計画を支援します。仮説の探索とは異なり、実験計画には科学実験の計画に含まれる手順とステップが含まれます。

例としては、化学合成プログラムがあります。化学合成計画には、既存の化合物から目的の化合物を合成できる一連のステップを見つけることが含まれます。

AI システムは、目的の化合物を取得するための合成経路を設計できるため、人間の介入の必要性が軽減されます。

アクティブラーニングは、材料の発見と合成にも使用されています。アクティブ ラーニングには、仮説を洗練するための実験フィードバックとの反復的な相互作用が含まれます。材料合成は複雑でリソースを大量に消費するプロセスであり、高次元パラメータ空間の効率的な探索が必要です。

アクティブ ラーニングは、不確実性の推定を利用してパラメータ空間を探索し、不確実性を可能な限り低減します。

多くの場合、実験中に決定をリアルタイムで調整する必要があります。ただし、人間の経験や直感だけに頼ると、このプロセスが難しくなったり、間違いが発生しやすくなったりすることがあります。強化学習は、変化する環境に継続的に対応し、実験の安全性と保証された成功を最大化するための代替アプローチを提供します。

たとえば、マグネトロン トカマク プラズマの実験では、強化学習手法がトカマク シミュレーターと相互作用して、制御プロセスの戦略を最適化します (下図を参照)。

写真

別の研究では、強化学習エージェントが風速や太陽高度などのリアルタイムのフィードバックに基づいて成層圏気球を操縦し、航行に適した風の流れを探しました。

量子物理学では、将来の複雑な実験に最適な選択に基づいて実験設計を動的に調整する必要がありますが、強化学習手法は実験を反復的に設計し、実験からフィードバックを取得することでこの問題を克服できます。

たとえば、強化学習アルゴリズムは、量子システムの測定と制御を最適化するために使用されており、それによって実験の効率と精度が向上します。

シミュレーションを使用して仮説から観察結果を推定する

コンピューター シミュレーションは、仮説から観察を導き出すための強力なツールであり、直接テストできない仮説の評価を可能にします。

しかし、既存のシミュレーション技術は、研究対象のシステムの基礎となるメカニズムについての人間の理解と知識に大きく依存しているため、シミュレーションが最適かつ効率的とは言えない可能性があります。

AI システムは、より正確かつ効率的に学習し、複雑なシステムの主要なパラメーターをより適切に適合させ、複雑なシステムを支配する微分方程式を解き、複雑なシステムの状態をモデル化することにより、コンピューター シミュレーションを強化できます。

科学者は通常、パラメトリック形式を含むモデルを作成することによって複雑なシステムを研究します。これには、パラメーターの初期の記号式を特定するためにドメイン固有の知識が必要です。

たとえば、分子力場は解釈可能ですが、さまざまな機能を表現するには限界があり、生成するには強い帰納的バイアスまたは科学的知識が必要です。

分子シミュレーションの精度を向上させるために、従来の力場に代わる、高価ではあるが正確な量子力学的データに適合する AI ベースの神経ポテンシャルが開発されました。

さらに、不確実性の定量化は、高次元の自由エネルギー面におけるエネルギー障壁の位置を特定するために使用されており、それによって分子動力学の効率が向上しています169 (下記)。

写真

粗視化分子動力学の場合、AI モデルは、学習した隠れた複雑な構造からシステムをどの程度粗視化する必要があるかを決定することで、大規模システムの計算コストを削減できます。

量子物理学では、ニューラル ネットワークは、その柔軟性とデータを正確に適合させる能力により、手動で推定された波動関数または密度汎関数の記号形式に取って代わりました。

微分方程式は、空間と時間における複雑なシステムのダイナミクスをモデル化するために重要です。AI ベースのニューラル ソルバーは、数値代数ソルバーよりもデータと物理学をよりシームレスにブレンドします。

これらのニューラル ソルバーは、ドメイン知識に基づいてニューラル ネットワークをモデル化することにより、物理学と深層学習の柔軟性を組み合わせます (下記)。

写真

AI 手法は、数値流体力学、ガラス システムの構造の予測、難しい化学反応速度論の問題の解決、地震波の伝播時間を特徴付けるためのエイコナール方程式の解決など、さまざまな分野の微分方程式の解法に適用されています。

動的モデリングでは、正微分方程式を使用して連続時間をモデル化できます。ニューラル ネットワークは、ナビエ ストークス方程式の解に対する物理情報の損失によって時空間領域でパラメータ化できます。

ただし、標準的な畳み込みニューラル ネットワークでは、ソリューションの詳細な特徴をモデル化する能力が限られています。この問題は、関数間のマッピングをニューラル ネットワークでモデル化する演算子を学習することで解決できます。

さらに、ソルバーはさまざまな領域や境界条件に適応できなければなりません。これは、ニューラル微分方程式とグラフ ニューラル ネットワークを組み合わせたグラフ分割によって実現できます。

統計モデリングは、複雑なシステム内の状態の分布をモデル化することで、複雑なシステムの包括的な定量的記述を提供できる強力なツールです。

正規化フローでは、一連の可逆ニューラル ネットワークを使用して、複雑な分布を事前の分布 (単純なガウス分布など) にマッピングしたり、その逆を行うことができます。

計算コストは​​高くなりますが (通常、数百または数千のニューラル層が必要)、正規化されたフローは正確な密度関数を提供し、サンプリングとトレーニングを可能にします。

従来のシミュレーションとは異なり、正規化されたフローは、事前の分布から直接サンプリングし、ニューラル ネットワークを適用することで、計算コストが固定されるように平衡状態を生成できます。

これにより、格子場とゲージ理論のサンプリングが強化され、モーダル混合により収束に失敗する可能性があるマルコフ連鎖モンテカルロ法が改善されます。

大きな挑戦

科学データを活用するには、人間の専門知識に基づいてモデルを構築し、シミュレーションを使用してモデルのパフォーマンスを向上させる必要があります。

この統合により、科学的発見の新たな機会が開かれます。

ただし、科学における AI の影響をさらに高めるには、理論、方法論、ソフトウェア、およびハードウェアのインフラストラクチャにおける大幅な進歩が必要です。

AI を通じて科学を進歩させるための包括的かつ実践的なアプローチを達成するには、分野を超えたコラボレーションが不可欠です。

実際的な考慮事項

科学データセットは、不完全なデータセット、偏ったまたは矛盾する読み取り値を生成する測定技術の制限、およびプライバシーとセキュリティの懸念による分析によるデータへのアクセスの制限のため、AI の候補としては適さないことがよくあります。

データ処理の作業負荷を軽減するには、標準化された透過的な形式が必要です。

モデル カードとデータ シートは、科学的なデータセットとモデルの運用特性を文書化する取り組みの例です。

さらに、フェデレーテッド ラーニングおよび暗号化アルゴリズムを使用して、商業的価値の高い機密データがパブリック ドメインに公開されるのを防ぐことができます。

オープンな科学文献、自然言語処理、ナレッジ グラフ テクノロジを活用すると、文献マイニングが容易になり、材料発見、化学合成、治療科学の進歩に貢献できます。

ディープラーニングの使用は、人間が関与する AI 主導の設計、発見、評価に複雑な課題をもたらします。

科学的なワークフローを自動化し、大規模なシミュレーション コードを最適化し、機器を操作するために、自律ロボット制御は予測を活用し、高スループットの合成ラインやテスト ラインで実験を実行し、自律的な研究室を構築できます。

材料探査における生成モデルの初期の応用により、望ましい特性と機能を持つ何百万もの材料が特定され、それらの合成可能性が評価できることが示されました。

たとえば、King らは論理 AI とロボット工学を組み合わせて酵母に関する機能ゲノミクス仮説を自律的に生成し、研究室の自動化を使用してこれらの仮説を実験的にテストしました。

化学合成では、AI が合成経路の候補を最適化し、予測された合成経路に基づいてロボットが化学反応を誘導します。

AI システムの実装には複雑なソフトウェアとハ​​ードウェアのエンジニアリングが含まれ、データのスクリーニングと処理からアルゴリズムの実装とユーザー アプリケーション インターフェイスの設計に至る、相互に依存する一連の手順が必要です。

実装における小さな違いがパフォーマンスの大幅な変化につながり、AI モデルを科学的実践に統合する成功に影響を与える可能性があります。

したがって、データとモデルの標準化を検討する必要があります。モデル トレーニングのランダムな性質、モデル パラメーターの変動、トレーニング データセットの変更により、AI 手法にはデータとタスクの両方に依存する再現性の問題が発生する可能性があります。

標準化されたベンチマークと実験計画により、これらの問題を軽減できます。再現性を向上させるためのもう 1 つの方向性は、オープン モデル、データセット、教育プロジェクトを公開するオープンソース イニシアチブを通じたものです。

アルゴリズムの革新

科学的理解に貢献したり、自律的に科学的理解を獲得するには、科学プロセス全体を通じて最適なアルゴリズムを使用する基盤となるエコシステムを確立するためのアルゴリズム革新が必要です。

分布を超えた一般化の問題は、AI 研究の最前線にあります。

特定の範囲のデータでトレーニングされたニューラル ネットワークは、別の範囲のデータには当てはまらないパターンを発見することがあります。これは、後者の基礎となる分布が変化しているためです。

多くの科学法則は普遍的に適用できるわけではありませんが、一般に広く適用可能です。そして、人間の脳は、最先端の AI よりも優れて迅速に、変更された環境に適応できます。

人間は観察したものに基づいて統計モデルを構築するだけでなく、因果モデルも構築するという非常に興味深い仮説があります。

これは、考えられるすべての介入 (たとえば、異なる初期状態、異なるエージェントの動作、または異なる状況) によってインデックス付けされた統計モデルのコレクションです。

AI に因果関係を組み込むことはまだ研究されていない分野であり、やるべきことはたくさんあります。

自己教師あり学習などの手法は、大量のラベルなしデータを利用し、そこに含まれる知識を低データ領域に転送できるため、科学的問題を引き起こす大きな可能性を秘めています。

ただし、現在の転移学習スキームは、特定の状況における一時的な解決策である可能性があり、理論的な指針が欠けており、基礎となる分布の変化に対して脆弱です。

いくつかの初期の試みはこの課題に対処しましたが、ドメイン間の転送可能性を体系的に測定し、マイナスの転送を防ぐためにはさらなる調査が必要です。

さらに、科学者が懸念している問題に対処するために、AI 手法の開発と評価は、医薬品設計における考えられる合成経路など、現実世界の状況で実行され、実際の応用に移す前に十分に校正された不正確さを含める必要があります。モデルの信頼性を評価するための推定。

科学データはマルチモーダルであり、画像 (例: 宇宙論におけるブラック ホール画像)、自然言語 (例: 科学文献)、時系列 (例: 材料の熱黄変)、シーケンス (例: 生物学的シーケンス)、グラフ (例: 複雑なシステム) および構造 (例: 3D タンパク質-リガンド立体構造)。

AI メソッドはブラック ボックスとして動作することが多く、ユーザーは出力がどのように生成されるか、出力を生成する際にどの入力が重要であるかを完全に理解していないことを意味します。

ブラックボックス モデルは、予測に対するユーザーの信頼を低下させる可能性があり、有人宇宙探査など、モデルの出力を実現する前に理解する必要がある領域や、気候科学など予測が政策を導く領域では、適用が限定されます。

解釈技術は数多くあるにもかかわらず、透明な深層学習モデルは依然としてとらえどころがありません。

しかし、人間の脳は、完璧ではないにしても、他の人間を納得させることができる高度な説明を合成することができます。

これは、同様に高い抽象レベルで現象をシミュレートすることによって、将来の AI モデルが人間の脳によって提供されるものと少なくとも同じくらい価値のある説明と理解を提供するだろうという希望をもたらします。

これは、高レベルの認知の研究が、現在の深層学習機能と、明確な抽象化、因果推論、分布を超えた一般化を操作する機能を組み合わせた将来の深層学習モデルにインスピレーションを与える可能性があることも示唆しています。

科学研究の事業に対する AI の影響

今後、AI の専門知識に対する需要は 2 つの要因によって影響を受けることになります。

まず、自律型研究所など、AI アプリケーションからすぐに恩恵を受ける可能性のある分野があります。

第 2 に、スマート ツールは最先端技術を進歩させ、実験では観察できない生物学的、化学的、物理的プロセスの長さとタイムスケールに関連する研究などの新たな機会を生み出すことができます。

これら 2 つの力に基づいて、研究チームの構成には AI 専門家、ソフトウェアおよびハードウェア エンジニアが含まれるようになり、政府、教育機関、企業のあらゆるレベルが関与する新しい形式のコラボレーションが行われると予想されます。

最近の最先端の深層学習モデルは 10,234 個増加し続けています。これらのモデルは数百万、場合によっては数十億のパラメーターで構成されており、そのサイズは毎年 10 倍に増加します。

これらのモデルのトレーニングには、モデルの出力を目的の値に近づけるために更新されたパラメーターを使用して、複雑なパラメーター化された数学的演算を通じてデータを渡すことが含まれます。

ただし、これらの更新を計算するための計算要件とデータ要件は膨大であり、その結果、膨大なエネルギー消費と高い計算コストが発生します。

その結果、大手テクノロジー企業はコンピューティング インフラストラクチャとクラウド サービスに多額の投資を行い、規模と効率の限界を押し上げています。

営利組織や非学術組織は大規模なコンピューティング インフラストラクチャを備えていますが、高等教育機関は分野を超えて統合するのに適している可能性があります。

さらに、学術機関は、他には存在しないかもしれないが AI4Science には必要な、独自の歴史データベースや測定技術を持っていることがよくあります。

これらの補完的な資産は、産学連携の新しいモデルを促進し、選択された研究課題に影響を与える可能性があります。

AI システムが人間のパフォーマンスに近づき、それを超えるにつれて、日常的な実験作業の代替として AI システムを使用することが可能になります。

このアプローチにより、研究者は、退屈で反復的なタスクを手動で実行することなく、実験データから予測モデルを開発し、それらのモデルを改善するための実験を選択することができます。

このパラダイムシフトをサポートするために、科学研究における実験室の自動化と AI の設計、実装、応用について科学者を訓練するための教育プログラムが登場しています。これらのプログラムは、科学者が AI の使用が適切な場合を理解し、AI 分析の誤解を防ぐのに役立ちます。

結論は

AI システムは科学的理解に貢献し、他の方法では視覚化や調査ができないプロセスやオブジェクトを研究したり、シミュレーションやスケーラブルな計算と組み合わせたデータからモデルを構築することで創造性を体系的に刺激したりすることができます。

この可能性を実現するには、AI の使用によって生じる安全性の懸念に、テクノロジーを責任を持って思慮深く展開することで対処する必要があります。

科学研究で AI を責任を持って使用するには、科学研究は AI システムの不確実性、エラー、有用性のレベルを判断する必要があります。

この理解は、AI 出力を正確に解釈し、欠陥がある可能性のある結果に過度に依存しないようにするために重要です。

AI システムは進化し続けるため、リスクを最小限に抑え、メリットを最大化するには、適切な保護策を備えた信頼性の高い実装を優先することが重要です。

AI には、これまで到達できなかった科学的発見を明らかにする可能性があります。

参考文献:

https://www.nature.com/articles/s41586-023-06221-2

おすすめ

転載: blog.csdn.net/lqfarmer/article/details/132238221