MolReGPT: 大規模言語モデルを使用した分子発見の探索 - 分子とテキスト記述間の変換

0ed99317ce8c3e13f25d7779854fbcc7.png

来源:ScienceAI
本文约6000字,建议阅读5分钟使用提示来指导LLMs在分子和分子文本描述之间进行翻译。

9a3c7e384080ba816db3ab5c52f3ef13.png

kid616daef0cd2302042503aca4cf078.png

エッセイのテーマ:

大規模言語モデルを使用した分子キャプション翻訳のための分子発見の強化: ChatGPT の観点

論文リンク:

https://arxiv.org/abs/2306.06615

プロジェクトリンク:

https://github.com/phenixace/MolReGPT

01 はじめに

b745188d07d2fbdc51383c569f4c9a62.png

図 1. 分子発見における分子と分子テキスト記述 (分子キャプション) 間の翻訳の図。(a) 分子は化学式、SMILES 文字列、および 2 次元分子グラフで表現できます。(b) 分子テキスト記述生成 (分子キャプション) の目的は、人間が分子をよりよく理解できるように、分子の構造、特性、機能を説明するテキストを生成することです。(c) 分子のテキスト記述が与えられると、テキストベースの分子生成は、対応する分子を生成することを目的とします (テキストベースの分子生成)。(d) 大規模言語モデル (ChatGPT など) は、対応する適切に設計されたプロンプト (Prompt) を使用して、分子テキスト記述生成 (Mol2Cap) およびテキストベースの分子生成タスク (Cap2Mol) を実現できます。

分子は、私たちの周りの世界の複雑なシステムを構成する物質の基本的な構成要素です。分子は、独自の化学的方法 (化学結合など) で結合された複数の原子で構成されており、その特定の構造によって決定される固有の化学的特性を保持しています。分子を包括的に理解することで、科学者はさまざまな特性や機能を持つ材料、医薬品、製品を効率的に設計できます。

ただし、従来の分子発見は、拡張性、精度、データ管理に制限があり、時間がかかり、コストがかかり、失敗が起こりやすいプロセスです。これらの課題を克服するために、人工知能 (AI) などの計算技術が、新しい分子の発見を加速する強力なツールとして登場しました。

具体的には、分子は単純化された分子列(SMILES 列)として表現できます。フェノールの構造は、図1(a)に示すように、ベンゼン環と水酸基からなるSMILES列で表すことができます。分子を生成し、より深く理解するために、Text2Mol[1] と MolT5[2] は、分子と自然言語の間で翻訳する新しいタスク、つまり分子とテキスト記述の間の相互翻訳タスクを提案しています。

これは、分子テキスト記述生成 (Mol2Cap) とテキストベースの分子生成 (Cap2Mol) の 2 つのサブタスクで構成されます。図 1(bc) に示すように、分子テキスト記述生成の目標は、人々に分子をより深く理解してもらうために、分子の SMILES 文字列を記述するテキストを生成することですが、テキストベースの分子生成の目的は、自然言語の記述 (プロパティや官能基など) は、対応する分子 (つまり SMILES 文字列) を生成します。

次のシナリオを想像してください。

• [分子キャプション (分子キャプション (Mol2Cap)]: 分子キャプション (分子キャプション)] 医師が薬物の特性を知りたい場合、薬物分子と自分の質問を大規模言語モデルに送信し、モデル分子の特性を分析し、医師がより適切な薬を処方できるように分析と予測を行います。図 1-b に示すように。

• [テキスト記述の分子への翻訳/テキストベースの分子生成 (Mol2Cap)] 化学者は自分のニーズを大規模言語モデルに直接述べ、そのモデルは 1 つ以上の候補分子を生成するのに役立ちます。分子または創薬のプロセスでは、候補分子をさらに実験することで大幅に単純化できます。図 1-c に示すように。

既存の研究のほとんどは、分子テキスト記述間の相互翻訳の作業において満足のいく進歩を遂げていますが、それらはすべていくつかの制限に悩まされています。まず、分子テキスト記述相互翻訳のタスクにおけるモデル アーキテクチャの設計は、ドメインの専門家に大きく依存しており、これが人工知能主導の分子発見の開発を大きく制限します。第 2 に、既存の手法のほとんどは「事前トレーニングおよび微調整された」モデルに従っており、過度の計算コストが必要です。第三に、Text2Mol [1] や MolT5 [2] などの既存のメソッドは、複雑なタスクを推論したり、目に見えないサンプルに一般化したりすることができません。

最近、大規模言語モデル (LLM) は自然言語処理 (NLP) の分野で大きな成功を収めています。LLM は、自然言語の理解と生成における優れた能力に加えて、強力な一般化能力と推論能力を実証しています。微調整することなく、インコンテキスト学習 (ICL) を通じて他の目に見えないタスクに一般化できるため、計算コストが大幅に削減されます。したがって、LLM は、特に分子テキスト記述の相互翻訳のタスクにおいて、分子発見を前進させる前例のない可能性を秘めています。

分子発見における特定の LLM の構築には、科学研究を前進させる大きな可能性がありますが、大きな課題にも直面しています。まず、プライバシーとセキュリティの懸念により、多くの高度な大規模言語モデル (ChatGPT や GPT4.0 など) は公開されていません。つまり、LLM のアーキテクチャとパラメータは公開されておらず、ダウンストリームで微調整することはできません。タスク。第 2 に、最先端の LLM のトレーニングには、その複雑なアーキテクチャと大量のデータが必要なため、大規模なコンピューティング リソースが必要です。したがって、独自の LLM を再設計し、事前トレーニングと微調整を実行することは非常に困難です。最後に、少数の質の高い例を伴う適切なガイドラインやプロンプトを設計することは、分子発見に関する LLM の理解と推論能力を向上させるために重要です。

これらの問題を解決するために、香港理工大学とミシガン州立大学の研究者らは、分子発見の分野でLLMの強力な機能を活用する探査を試みました。彼らは、図 1(d) に示すように、ヒントを使用して LLM が分子と分子テキスト記述の間を翻訳できるようにガイドする新しい解決策を提案しています。具体的には、最新の ChatGPT に触発されて、分子モーガン指紋ベースの類似性検索/BM25 ベースの分子テキスト記述検索とコンテキスト学習 (ICL) を介して、検索ベースのヒンティング パラダイム MolReGPT [5] を開発しました。サブタスク(すなわち、分子テキスト記述の生成およびテキストベースの分子生成)。実験では、MolReGPT が Mol2Cap 生成で 0.560、Cap2Mol 生成で 0.571 を達成でき、分子記述相互翻訳の両方のサブタスクにおいて微調整された MolT5 ベースを上回っていることが示されています。MolReGPT はテキストベースの分子生成の点で MolT5 よりも優れており、Text2Mol メトリクスを 3% 改善します。このタスクに関する MolReGPT のすべての改善が、微調整手順を行わずに達成されることは注目に値します。

02メソッド

92acd8f3efebd8d812282fc9aabcbba9.png

図 2: MolReGPT の全体的なワークフロー フレームワーク。

分子発見のためにドメイン固有のコーパス上で LLM をトレーニングおよび微調整することは、膨大な計算コストのため、実際には実現できないことがよくあります。これらの制限に対処するために、研究者らは、LLM を変更せずに LLM の強力な機能を活用し、ChatGPT が分子テキスト記述間の相互翻訳機能を備えられるようにする革新的なフレームワーク MolReGPT を提案しました。具体的には、ガイダンス/ヒントの質を向上させるために、文脈学習の下で 2 つの分子関連タスク、分子テキスト記述生成 (MolCap) とテキストベース分子生成 (Cap2Mol) の ChatGPT をガイドする検索ベースのヒント パラダイムを導入しています。MolReGPT のフレームワークは図 2 に示されており、分子テキスト記述の検索、プロンプト管理、状況に応じた少数ショット分子学習、および生成キャリブレーションの 4 つの主要な段階で構成されています。

1. 分子キャプション検索(図 3): この段階では、入力分子または分子テキスト記述に最も類似した n 個の分子 - 分子記述ペアをデータベースから取得するために使用されます (つまり、小さなサンプル学習例)。このプロセスは主に、Molecular Morgan Fingerprint (Mol2Cap の場合) と BM25 (Cap2Mol の場合) という 2 つの検索方法に依存しています。

96de4ca207f3e266bcc0eb738e7a036a.png

図 3: 分子キャプションの取得。

a. モーガン指紋に基づく分子検索 (Mol2Cap の場合)

b123d209a45d6602f003c10bc52bc204.png

図 4: Molecular Morgan Fingerprint と Dice の類似性の図。緑色は分子間類似性スコアにプラスに寄与する部分構造に対応し、紫はマイナスに寄与するか、分子間類似性スコアに異なる部分構造に対応します。

モーガンの指紋を抽出するには、rdkit ライブラリを使用して分子の SMILES 表現を rdkit オブジェクトに変換しました。次に、図 3 に示すように、Dice 類似度を適用して、入力分子とローカル データベース内の分子の間の類似性を測定します。数学的には、次のように表現できます。

04273566d4cfb28fa389aaa032469f23.png

ここで、A と B は 2 つの分子のモーガン フィンガープリントです。|A| および |B| は、A および B のカーディナリティ (部分構造の数など) を示します。|A ∩ B| は、A と B が共有する部分構造の数を示します。サイコロの類似性の範囲は 0 から 1 で、0 は分子間に重複または類似性がないことを示し、1 は完全な重複を示します。

b. 基本的な BM25 分子テキスト生成検索 (Cap2Mol 用)

BM25 は、情報検索における最も代表的なランキング手法の 1 つで、特定のクエリに対するドキュメントの関連性を計算するために使用されます。Cap2Mol タスクでは、入力テキスト記述がクエリ文として使用され、ローカル データベース内のテキスト記述が文書のコーパスとして使用されます。各テキスト記述は文書を表します。数学的には、BM25 の式は次のように定義できます。

dc3cd11eb394c589c404b0d154cc6fc1.png

ここで、D はテキスト説明コーパス、Q はクエリのテキスト説明です。N はクエリ テキストの説明内のクエリ ワードの数、Qi は i 番目のクエリ ワード、IDF(Qi) は Qi の逆ドキュメント頻度、f(Qi,D) ​​は D 内の Qi のワード頻度、k1および b は調整パラメータ、|D| は D の長さ、avgdl はコーパス内の平均的なテキスト記述の長さです。テキスト記述の検索では、BM25 を使用してテキスト記述間の類似性スコアが計算され、分子とテキストの記述のペアをスクリーニングすることでテキスト記述に対応する関連分子構造を学習できます。

2. プロンプト管理 ( 図 5): この段階では主に ChatGPT のシステム プロンプトを管理および構築します。プロンプト プロンプトには主に役割の識別 (Role Identification)、タスクの説明 (Task description)、検索例 (Examples) と出力指示 (Output) が含まれます。説明)この 4 つの部分です。このうち、第1段階の検索処理を例に挙げる。各部分は、出力に対する特定のガイドの役割を果たします。

808700f418d9725ca4925b915e8628d9.png

図 5: プロンプト プロンプト管理 (プロンプト管理)。

a. 役割の特定

役割の特定の目的は、LLM が化学および分子発見の分野における専門家としての役割を認識できるようにすることです。この役割を認識することで、LLM は特定の分野で期待される専門知識と一致する応答を生成することが奨励されます。

b. タスクの説明

タスクの説明では、タスクに伴う内容についての包括的な説明が提供され、LLM が取り組む必要のある特定のタスクについて明確なアイデアを得ることができます。また、分子テキストの記述を相互に翻訳する作業において用語や概念を明確にするための重要な定義も含まれています。

c. 検索例(例)

取得した例をユーザー入力プロンプトとして使用すると、LLM は少数ショットの学習例に含まれる情報を活用して、より適切に応答できるようになります。

d. 出力命令

出力ディレクティブは、応答の形式を指定します。ここで、研究者は出力を JSON 形式に制限しました。JSON 形式を選択すると、LLM の応答を迅速かつ効率的に検証でき、さらなる処理と分析で期待される結果に適合しているかどうかを確認できます。

3. インコンテキスト フューショット分子学習(図 6): この段階では、コンテキスト スモールショット分子学習のために、システム プロンプトとユーザー入力プロンプトが ChatGPT に提供されます。このプロセスは、大規模な言語モデルのコンテキスト学習能力に基づいており、少数の同様のサンプルに依存するだけで、分子構造に対応する特徴を捕捉して、微調整することなく、分子とテキストの記述の間の相互翻訳タスクを実行できます。大規模な言語モデル。

システム プロンプトとユーザー入力プロンプトの組み合わせにより、文脈学習を通じて ChatGPT に明確なガイダンスが提供されます。システム プロンプトは、分子テキストの説明と分子ドメインの専門知識の間の相互翻訳のためのタスク フレームワークを確立し、ユーザー プロンプトはモデルの範囲を絞り込みます。特定のユーザー入力に向けられています。

ffa745d7a4100c43cc6ce597d8c5c05d.png

図 6: インコンテキストの少数ショット分子学習。

4. 生成キャリブレーション (図 7) : この段階で、システムは ChatGPT の出力をキャリブレーションし、期待される形式と要件に準拠していることを確認します。出力が期待を満たさない場合、エラーの最大許容数に達するまで、システムは ChatGPT で再処理されて生成されます。

目的の出力形式を指定しているにもかかわらず、ChatGPT などの LLM は、誤った出力形式や応答の拒否など、予期しない応答を生成することがあります。これらの問題に対処するために、研究者らは、ChatGPT 応答を検証するための生成キャリブレーション メカニズムを導入しました。キャリブレーションを生成する際、最初に生の応答を JSON オブジェクトに解析してその形式をチェックします。解析プロセスが失敗し、予期された形式からの逸脱が示された場合は、正規表現一致などのいくつかの事前定義された形式修正戦略が導入され、形式が修正され、応答から目的の結果が抽出されます。元の回答が書式チェックに合格した場合、または書式修正戦略を使用して調整できた場合、その回答は有効とみなされ、最終回答として受け入れられました。ただし、元の応答が形式チェックに合格せず、所定のポリシー内で修正できない場合は、再クエリが開始されます。再クエリには特殊なケースがあることに注意してください。元の応答で「入力の最大長の制限を超えました」エラーが報告された場合、クエリの長​​さが長さの制限に達するまで、再クエリ フェーズで最も長いサンプルが削除されます。再クエリのプロセスでは、有効な応答が得られるか、最大エラー許容範囲に達するまで、LLM に対して追加のクエリを実行します。この最大誤差許容値の設定は、システムが無限ループに陥らず、許容範囲内でユーザーに適切な応答を提供することを保証するためのものです。

生成キャリブレーション フェーズを採用することにより、目的の出力フォーマットからの意図しない逸脱を減らすことができ、結果として得られる応答は、期待されるフォーマットおよび要件と一致します。

b92ec57696ba6707bc917536f8e511f3.png

図 7: 生成のキャリブレーション。

03 件の結果

分子記述生成タスク (Mol2Cap)

fe841d96c7ae92afd8330d666649881d.png

表 1: ChEBI-20 データセットに対する分子記述生成 (Mol2Cap) タスクにおけるさまざまなモデルのパフォーマンスの比較 [3,4]。

fbf5761f31bf0113ce12ddc8757e46a6.png

表 3: 分子記述生成 (Mol2Cap) タスクで N ショットを使用した MolReGPT のパフォーマンスの比較。

Mol2Cap タスクの結果を表 1 および表 3 に示します。MolReGPT メソッドは、微調整された MolT5 ベース [2] に匹敵する ROUGE スコアを達成でき、同時に残りのメトリクスに関しては選択されたすべてのベースライン モデルを上回ります。

さらに、アブレーション実験では、表 3 に示すように、ランダム、BM25、およびモーガン FTS (MolReGPT で採用) の 3 つの検索戦略のパフォーマンスが主に比較されます。ランダム戦略は n 個のランダムな例を取得することを指しますが、BM25 は分子の SMILES 文字列表現に文字レベルの BM25 アルゴリズムを使用します。3 つの検索戦略の中で、モーガン FTS は、少数ショット学習の同じ数のサンプルで最も優れたパフォーマンスを発揮し、Text2Mol [1] メトリクスでは BM25 を 37% 上回っています。

さらに、Morgan FTS は、ランダムまたは BM25 検索戦略と比較して、ほぼ 2 倍の ROUGE-L スコアを達成しました。Morgan FTS 検索戦略を使用すると、分子の説明で詳細に説明される官能基などの固有の構造的特徴を比較することで、分子間の構造的類似性をより適切に推定できることが示されました。この場合、Morgan FTS によって類似の分子を取得すると、LLM が分子構造と分子の説明の間の関連性を効果的に学習できるようになり、より正確で望ましい出力が得られます。

図 8 は、さまざまなモデルのパフォーマンスを比較するための分子記述生成の例を示しています。与えられた例から、MolReGPT は入力分子の重要な情報を含むテキスト記述を生成できることがわかります。さらに重要なことは、生成されたキャプションは構文的により適切であり、人間にとって理解しやすいということです。

8d17676da2f4e182b9876c6e7d46a890.png

図 8: さまざまなモデルによって生成された分子記述の例 (SMILES 文字列は、よりわかりやすく表示するために分子グラフに変換されています)。

テキストベースの分子生成タスク (Cap2Mol)

08233e56373fe9242db9fb25398ff578.png

表 2: ChEBI-20 データセット上のテキストベースの分子生成 (Cap2Mol) タスクにおけるさまざまなモデルのパフォーマンスの比較。

43ea2867481b3361c9e262f277c399b0.png

表 4: テキストベースの分子生成 (Mol2Cap) のタスクで N ショットを使用した MolReGPT のパフォーマンスの比較。

分子のテキスト記述 (構造と特性を含む) が与えられると、Cap2Mol の目標は、分子発見のために対応する分子 (つまり SMILES 文字列) を生成することです。具体的な結果を表 2 および表 4 に示します。すべてのベースライン モデルを比較すると、10 ショット MolReGPT が GPT-3.5 ターボの機能を大幅に強化し、最高の全体的なパフォーマンスを達成していることがわかります。MACCS FTS、RDK FT​​S、Morgan FTS などの分子評価指標において、MolReGPT は MolT5 ベースと比較して Text2Mol 指標において 15% の大幅な向上を達成しました。分子フィンガープリント スコアを考慮すると、10 ショット MolReGPT も MolT5 ベースと比較して平均 18% 向上しています。さらに、MolReGPT は最高の完全一致スコアも達成しており、例の 13.9% がグラウンド トゥルースと完全に一致しています。上記の素晴らしい結果はすべて、追加のトレーニングや微調整を行わずに達成されることは注目に値します。

図 9 は、異なるモデル間のパフォーマンスを比較するための、テキストベースの分子生成結果の例を示しています。与えられた例からわかるように、MolReGPT はグラウンド トゥルースにより近い構造を生成できます。

44f75c16ae91c785e633f90645c072ad.png

図 9: さまざまなモデルによって生成された分子の例 (SMILES 文字列は、よりわかりやすく表示するために分子グラフに変換されています)。

04 ディスカッション

b3e421a0822d9b7a6463914de7a7e851.png

図 10: 特定の入力に対して MolT5 と MolReGPT によって生成された分子の比較。

この論文では、カスタマイズされたテキストに基づいて分子生成タスクについてさらに調査を行いました。図 10 に示すように、例 1 の入力では、構造内の 5 つのベンゼン環と疎水性基が強調されています。ただし、MolT5 の結果ではベンゼン環の数が不正確で、得られた構造には親水性基が含まれていました。対照的に、MolReGPT は入力に対応する正しい構造を提供します。例 2 では、MolT5 と MolReGPT の両方が正しい数のベンゼン環を生成しましたが、MolReGPT はより多くの親水性基を生成しました。これは、与えられた入力とより一致しています。

05 結論

この記事では、文脈に応じたスモールショット分子学習のための一般的な検索ベースのヒンティング パラダイムである MolReGPT を提案します。これにより、分子発見のための大規模言語モデル (ChatGPT など) が強化されます。MolReGPT は、分子類似性原理を利用して、コンテキスト学習の例としてローカル データベースから分子間テキスト記述ペアを取得し、分子の SMILES 文字列を生成するように大規模言語モデルをガイドします。これにより、大規模言語モデルを微調整する必要がなくなります。

この研究の方法は、分子テキスト記述生成 (Mol2Cap) とテキストベースの分子生成 (Cap2Mol) を含む分子テキスト記述間の相互翻訳タスクに焦点を当て、このタスクに関する大規模言語モデルの能力を評価します。実験結果は、MolReGPT により ChatGPT が分子記述生成と分子生成でそれぞれ 0.560 と 0.571 の Text2Mol スコアを達成できることを示しています。分子理解とテキストベースの分子生成の観点から見ると、そのパフォーマンスは MolT5-base などの微調整モデルを上回り、微調整された MolT5-large にも匹敵します。結論として、MolReGPT は、文脈学習を通じて分子発見に大規模言語モデルを展開するための新規で多機能な統合パラダイムを提供します。これにより、ドメイン転送のコストが大幅に削減され、分子発見における大規模言語モデルの可能性が探求されます。

参考文献

[1] Edwards, C.、Zhai, C.、および Ji, H. Text2mol: 自然言語クエリによるクロスモーダル分子検索。自然言語処理における経験的手法に関する 2021 年会議議事録、595 ~ 607 ページ、2021 年。

[2] Edwards, C.、Lai, T.、Ros, K.、Honke, G.、Cho, K.、および Ji, H. 分子と自然言語間の翻訳。自然言語処理における経験的手法に関する 2022 年会議議事録、375 ~ 413 ページ、アラブ首長国連邦、アブダビ、2022 年 12 月。計算言語学協会。

[3] Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN、Kaiser, Ł、および Polosukhin, I. 必要なのは注意だけです。神経情報処理システムの進歩、30、2017。

[4] Raffel, C.、Shazeer, N.、Roberts, A.、Lee, K.、Narang, S.、Matena, M.、Zhou, Y.、Li, W.、Liu, PJ 限界の探求統合されたテキストからテキストへの変換器を使用した転移学習の学習。機械学習研究ジャーナル、21(1):5485–5551、2020。

[5] Li, J.、Liu, Y.、Fan, W.、Wei, XY、Liu, H.、Tang, J.、および Li, Q. (2023)。大規模言語モデルを使用した分子キャプション翻訳のための分子発見の強化: ChatGPT の観点。arXiv プレプリント arXiv:2306.06615。

編集者:ウェン・ジン

42ad6c4de637a5beaaee996d7ec45c19.png

おすすめ

転載: blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/131318097