ByteDance Li Hang: 科学用 AI の探索と進歩

出典: ハート・オブ・ザ・マシン

著者: Li Hang、ByteDance Research 責任者

NLP グループに入る -> NLP 交換グループに参加する

近年、自然言語処理、コンピュータビジョン、音声処理などの人工知能のさまざまな分野が、ディープラーニングの強力な力の助けを借りて目覚ましい進歩を遂げています。深層学習技術を物理学、化学、生物学、医学などの伝統的な科学分野に適用する、いわゆる AI for Science (科学的知能) は、新しい学際的な主題として徐々に台頭し、大きな可能性を生み出し、広く受け入れられています。懸念。

ByteDance Research は、機械学習や量子化学、大規模量子化学計算、AI 医薬品などの分野におけるいくつかの問題に関する研究を含む、科学のための AI に関する研究も行っており、業界と協力して開発を促進したいと考えています。フィールドの。この記事では、過去 2 年間に達成した進歩の一部を簡単に紹介します。私たちも提案を行い、業界とのさらなる交流と協力を望んでいます。

機械学習と量子化学の方向において、私たちが提案したLapNetアルゴリズムは、代表的なFermiNetモデルよりも10倍高速であり、計算できる化学系の規模と精度は現在この分野で最大です。

大規模な量子化学計算の方向で、私たちは周期系の計算に古典コンピュータと量子コンピュータのハイブリッド (実際には古典コンピュータ上のシミュレーション) を使用する周期 DMET アルゴリズムを開発しました。この方法では、精度を達成するためにほぼ 10,000 量子ビットが使用されます。

AI医薬品の開発に向けて、私たちが開発したLM-Designモデルは、大量のタンパク質配列データと、一定量のタンパク質構造および配列対応データを使用して、タンパク質の構造から配列変換までのモデルを学習し、現在、タンパク質配列設計において最高の精度を誇ります。

機械学習と量子化学

物理学者のディラックはかつてこう言いました:「ほとんどの物理学とすべての化学について、数学的モデリングに必要な基本法則は完全に明らかです。難しいのはこれらの法則の適用にのみあります。結果として得られる方程式は一般に複雑すぎて解くことができません」

量子化学は、量子力学の原理に基づいて化学現象を研究する学問です。重要な問題は、計算手法を使用して分子または周期系 (固体など) の電子シュレディンガー方程式を解き、それによって分子または周期系の基底状態エネルギー、電気極性、およびその他の特性を推定することです。いわゆるab initio問題です。従来の手法には、密度汎関数理論 DFT、結合クラスター CCSD などが含まれます。計算精度が十分に高くないか、計算規模が十分に大きくありません。

近年、機械学習手法を使用して非経験的な計算問題を解決するという新しい方向性が大きな注目を集めています。基本的なアイデアは、深層学習の強力な表現および学習機能を使用して、ゼロからの計算の精度と規模を大幅に向上させることです。パスの 1 つは NN-VMC (ニューラル ネットワーク ベースの変分モンテカルロ) です。ニューラル ネットワークを使用してシュレーディンガー方程式の波動関数を近似し、ランダム サンプリングによって空間内の系内の電子のサンプルを取得することで、シュレーディンガー方程式に基づいて系全体のエネルギーを計算できます。エネルギーの上限を最小限に抑え、ニューラル ネットワークのパラメーターを最適化し、継続的に反復することにより、最終的にシステムのほぼ最適なニューラル ネットワーク (波動関数) とおおよその基底状態エネルギー (最小エネルギー) を取得します。(注: 波動関数の 2 乗は、空間に出現する電子の確率密度関数です。波動関数を使用すると、空間内の電子をランダムにサンプリングすることができます。) 図 1 に NN-VMC の基本原理を示します。中心的な問題は、ニューラル ネットワークと学習アルゴリズムをどのように設計するかです。

d0b696729c4f481fe5cb085dadf222ba.png

図 1. NN-VMC 法の基本原理

NN-VMCにおける代表的な手法は、2019年にDeepMindとICLによって提案されたFermiNetです。その後、いくつかの研究機関がいくつかの新しい方法を提案しました。2021年からバイトダンスリサーチは北京大学と協力して一連の関連研究を実施し、いくつかの新しい手法を提案した。以下にこれらの方法を簡単に紹介します。

NN-VMC+ECP は、NN-VMC と擬ポテンシャル ECP (Effective Core Potential) [1] を組み合わせて開発した手法であり、計算効率とシステム規模をさらに向上させることができます。化学系の特性を計算する場合、多くの場合、原子の外側の軌道にある電子のみに注目する必要があります。原子の内部軌道にある電子の位置エネルギーを定量的に表現することで、計算量を大幅に削減できます。ECP 技術を NN-VMC に適用し、この新しい手法を取得し、良好な結果を達成しました。

NN-DMC は、ニューラル ネットワークと拡散モンテカルロ法 DMC (Diffusoon Monte Carlo) を組み合わせた、私たちが提案したもう 1 つの手法です [2]。DMC は VMC とは異なり、システムの基底状態エネルギーの上限を計算する代わりに、仮想時間発展を使用してシステムの基底状態エネルギーを計算します。この方法は、FermiNet などの既存の方法と比較して、計算の精度と規模を大幅に向上させることもできます。

最近開発された LapNet も NN-VMC 手法 [3] であり、ニューラル ネットワークの学習時に前方ラプラシアン (Forward Laplacian) を使用することが特徴です。シュレディンガー方程式に基づいて系のエネルギー上限を計算する過程では、運動エネルギー部分を含めたハミルトニアン演算子を計算する必要があります。これまでの手法では、関連するヘッセ行列を計算することで運動エネルギーを計算していましたが、アルゴリズムが非常に複雑で、学習のボトルネックとなっていました。LapNet は、学習の順伝播において、ラプラシアン演算子の計算を通じて運動エネルギーとハミルトニアン演算子を直接計算するため、ヘッセ行列の計算を省略します。これにより、学習の計算効率が大幅に向上します。FermiNet と比較すると、LapNet は平均約 10 倍の加速度を持っています。

ECP、DMC、Forward Laplaceは3つの異なる技術改善(位置エネルギー計算の簡素化、サンプリングの最適化、計算効率の向上)に属しており、3つの技術を組み合わせることで原理的には計算規模を大幅に増大させることができ、我々もそれを行っています。試しています。さらに、NN-VMC 法は、固体のシュレディンガー方程式の解法 [4]、分子系の力場 [5]、電気分極の計算 [6] などの問題にも適用されており、次のことが証明されています。 NN-VMC 法の実用性。

図 2 は、現在の NN-VMC 手法における代表的な作業の精度とスケールを示しており、縦軸は精度、円の大きさはスケールを表しています。私たちが提案する LapNet 手法は、より大規模なシステムをより高い精度で計算できます。最大の系には 116 個の電子があります。

9e989a85b79fe5a7ec3fd99c5ce18e02.png

図 2. NN-VMC 法のスケールと精度

大規模量子化学計算

シュレーディンガー方程式を直接解くことによって化学系の特性 (基底状態エネルギーなど) を計算する方法は、扱えるスケールが依然として限られています。この問題を解決するには、量子埋め込み法が有効であると考えられています。基本的なアイデアは、分割統治と多精度コンピューティングを通じて大規模化を実現することです。代表的な手法は密度行列埋め込み理論DMET(Density Matrix Embedding Theory)である。システムをいくつかの部分 (Fragment) に分割し、各 Fragment とそれに対応する環境 (Bath) で高精度の計算を実行し、他の部分で低精度の計算を実行します。そして、各フラグメントは必要に応じて並列処理されます。最後に、高精度の計算結果を組み合わせて、継続的に反復的に元のシステムに近づきます。これにより、計算可能なシステムのサイズが大幅に増加する可能性があります。

0ab3da417a0ade789b391be53dc68731.jpeg

図 3 DMET 法の直感的な説明

図 3 は、DMET 法のプロセスを示しています。まず、元のシステムを分割してフラグメントのセットを取得します。写真の黄色の部分が注目するフラグメント、たとえば 2 つの原子であると仮定します。写真の青い部分には環境とその他の部分が含まれています。CCSD などの高精度の方法を使用して対象のフラグメントとその環境を計算し、低精度の方法を使用して他の部分を計算します (Hartree-Fock 法など)。すべてのフラグメントに対して同じ並列処理を実行します。

具体的なアルゴリズムは以下の通りです。まず、低精度解法により、全体(注目フラグメント、環境、その他の部分)の縮小密度行列を取得し、この低精度解法にはパラメータが含まれる。次に、この行列のフラグメントとその環境に対して特異値分解を実行し、射影演算子 P を構築し (この射影演算子はフラグメントとその環境にのみ焦点を当てます)、射影演算子を使用して低次元システム (画像) を構築します。高精度なソリューションを実行します。その後、すべてのフラグメントの計算結果がシステム全体の近似値として結合されます。最後に、反復を通じて、最終結果が得られるまで、元の低精度の解がマージされた高精度の解 (L2 ノルムの意味で) に徐々に近づくようにパラメーターが調整されます。

2 つのまったく異なるコンピューティング パラダイムに基づいて、DMET とそのバリアント SIE を実装して、大規模な量子化学システムで計算を実行します。1 つは古典コンピューターを使用するもの、もう 1 つは量子コンピューターを使用するものです。この記事では、量子計算化学としても知られる後者の関連研究を主に紹介します(前者の研究計画は、今後さらに進歩した場合に紹介します)。私たちは量子コンピュータへの実装も検討していますが、古典コンピュータ上でのシミュレーションのみを行っており、量子化学の発展に貢献したいと考えています。DMET法は計算パラダイムに関係なく大規模な計算が可能であり、私たちはDMETの実装により計算可能なシステムを数桁改善することを目指しています。

物理学者のファインマンはかつてこう言いました、「自然は古典力学ではない。自然をシミュレートしたいなら、量子力学を使うほうがいい」量子コンピューティング技術の開発の原動力は、量子レベルのコンピューティング デバイスを使用して量子現象をシミュレートすることです。言い換えれば、量子化学は量子コンピューティングに最も適した応用分野の 1 つです。

9194c686f6db05c11a0f8b76c2461fae.png

図 4. 周期的 DMET 法の概略図

私たちは、量子コンピュータと古典ハイブリッドコンピュータとDMETの特性を組み合わせた2つの量子計算化学手法を開発し、計算システムの精度と規模を大幅に向上させました。基本的な考え方は、DMET の高精度計算部分を量子コンピュータで実装し、DMET の低精度計算部分を古典コンピュータで実装するというものです。DMET-ESVQE は分子系を計算し [7]、Periodic DMET は周期系を計算します [8]。前者は 16 量子ビットのみを使用し、前の方法を使用すると 144 量子ビットの計算を実現できます。後者は、以前の方法ではほぼ 10,000 量子ビットを使用した計算を達成するために、わずか 20 量子ビットを使用します。

図 4 は、ハイブリッド コンピューターに実装された DMET 周期メソッドを示しています。入力はクリスタルで、出力はシステムのエネルギーです。まずシステムを分割し、次に各フラグメントを並行して計算します。フラグメントとその環境に焦点を当て、量子コンピューター上の U-CCSD を使用してそれを解決します。他の部分は、古典的なコンピューターで Hartree-Fock 法を使用して解決されます。

VMC や DMC を含む量子モンテカルロ法は、量子化学において最も効果的な一連のアルゴリズムです [9]。また、量子コンピューティングと量子モンテカルロ法を組み合わせた新しい手法も提案します。この方法は、量子化学に対する量子コンピューティングの利点の一部を反映することができます。具体的には、量子コンピューティングは、量子モンテカルロ法の符号問題を部分的に解決できます。

AI製薬

AI テクノロジーを使用して創薬を支援することは、業界で広く受け入れられている新しいパラダイムとなっています。近年、多くの研究が行われ、いくつかの技術が実際のシナリオに適用されています。AI技術を活用した低分子医薬品や高分子医薬品(抗体医薬)などの創薬研究開発を行っています。

小分子医薬品の設計プロセスには、タンパク質標的の発見、小分子医薬品候補の生成、標的に対する候補の親和性、候補の創薬可能性、およびそれらの非毒性の判断が含まれます。現在、これらの医薬品開発ステップを実装できる AI テクノロジーが存在します。私たちは機械学習に基づいて低分子医薬品候補を生成する手法を開発しており、スコアリング関数を用いて候補を自動生成する手法として MARS [10]、標的の形状に基づいて候補を自動生成する手法として DESERT [11] がある。 ]。

MARS はシード分子から開始し、最終的に最適な低分子薬剤候補を取得するまで分子を継続的に編集します。生成プロセスにはマルコフ連鎖モンテカルロ法 (MCMC) が使用され、その定常分布は複数のスコアリング関数から構成される確率分布です。スコアリング関数は、低分子医薬品候補の親和性、創薬可能性、非毒性などを表します。提案された分布は、グラフ ニューラル ネットワーク (MPNN) に基づく小分子薬剤候補の編集前後の条件付き確率分布を表します。グラフ ニューラル ネットワークは、ノードが原子、エッジが化学結合である小分子化合物の分子式を表します。低分子の編集には、新しいノードの追加と既存のノードの削除が含まれます。低分子に対する可能な編集操作 (追加または削除) は、グラフ ニューラル ネットワーク上で予測でき、そのパラメーターが学習されます。MARS に必要なのは、スコアリング機能と低分子医薬品のデータベース (分子式) だけで、新しく多様な低分子医薬品候補を生成できます。現在、MARS は実際の低分子医薬品の設計作業に使用されています。

DESERT は、小分子薬剤候補の生成を 2 つのステップで実行します。スケッチ:標的タンパク質のポケット形状に相補的な薬剤候補の形状をサンプリングする 生成:薬剤候補の形状に基づいて薬剤候補の分子式を自動生成する。図 5 にこのプロセスを示します。

96dea53a83af669b835c06d92b872d65.png

図 5. DESERT: 低分子薬剤候補の自動生成

候補とターゲットを組み合わせるために必要な条件は、両者の形状がうまくドッキングできることです。スケッチ段階では、ヒューリスティック手法を使用して、タンパク質ターゲットの形状に基づいて候補形状を生成します。生成段階では、事前に学習された形状から分子への生成モデル Shape2Mol を使用して、形状に基づいて分子式を自動的に生成します。この生成モデルは、分子ライブラリ内の多数の薬物の分子式と形状を使用して学習できます。図 6 に示すように、Shape2Mol では、エンコーダーが分子の 3D 形状をエンコードして中間表現を生成し、デコーダーが中間表現に基づいて分子式を生成します。3D 形状はボクセルを使用して表現され、分子式は一連のシンボルを使用して表現されます。DESERT は、最高の結合性能を備えた 2022 年の小分子医薬品候補を生成するための最良の方法です。

b300a636f59bc0bf34de63e5b883f5af.png

図 6. 形状から分子への生成モデルである Shape2Mol の概略図。

最近、私たちは高分子医薬品の設計に焦点を当てていますが、より一般的な問題はタンパク質の設計です。タンパク質の設計には、抗体医薬品の設計、ペプチド医薬品の設計などが含まれます。タンパク質の配列(アミノ酸配列)がわかればその構造を予測することができ、タンパク質の構造が分かればその機能を予測することができます。これは有名な AlphaFold がやっていることです。タンパク質の設計は、その逆のプロセスとみなすことができます。一般に、対応するタンパク質の構造は機能に基づいて決定され、その後、対応するタンパク質の配列はタンパク質の構造に基づいて決定されます。私たちは、タンパク質構造からタンパク質配列を生成するモデルである LM-Design を開発しました。

LM-Design の入力はタンパク質構造であり、出力は対応するタンパク質配列です。LM-Design は、構造エンコーダーとシーケンス デコーダーで構成されます。このうち、構造エンコーダーは、タンパク質構造を表すようにトレーニングされたグラフ ニューラル ネットワークであり、シーケンス デコーダーは、BERT/Transformer Encoder と同様、事前トレーニングされた大規模タンパク質言語モデル (タンパク質言語モデル) に基づいています。 (双方向セルフアテンションを使用)、最後のレイヤーに構造アダプターを挿入します。構造アダプタのパラメータを学習します。図 7 に、LM-Design のモデル アーキテクチャを示します。

cdf5760feb603125e152f9208b4b47a6.png

図 7. タンパク質構造から配列までの生成モデルである LM-Design のアーキテクチャ。

LM-Design の学習と予測はマスクされた言語モデリングであり、BERT モデルのトレーニングに似ており、その目的は、マスクされたシーケンス内のシンボル (アミノ酸) を複数回復元することです。つまり、学習済みのタンパク質言語モデルの情報と現在のタンパク質の構造情報に基づいて、タンパク質の配列が複数回書き換えられます。LM-Design は、グローバル配列情報に基づいて少数のシンボル (アミノ酸) を書き換えるため、長距離のタンパク質依存性を適切に表現および予測できます。注: タンパク質の折り畳み後は、配列的に遠く離れたアミノ酸でも構造が近くなる可能性があります。

実際には、配列決定されたタンパク質の配列データは大量にありますが、タンパク質の構造と配列アラインメントのデータは少量しかありません。LM-Design の利点の 1 つは、膨大なタンパク質配列データを利用して、タンパク質配列の進化の過程で生成される相関関係を完全に学習して利用できることで、タンパク質の構造から配列生成までの予測精度が大幅に向上することです。さらに、事前トレーニングされたタンパク質モデルのサイズを大きくすると、精度がさらに向上することがわかりました。図 8 に示すように、LM-Design は現在最良のタンパク質配列生成モデルであり、図中の円の大きさはモデルのパラメーターの数を表しています。

0ef14e52ffc6f47db8ce2d7d69fb176c.png

図 8. タンパク質配列生成法の精度

謝辞

この記事の執筆にあたり、ご提案とご協力をいただきました Ren Weiluo、Lu Dingshun、Gu Quanquan、Wu Kai、Zheng Zaixiang、Zhou Yi、Luo Manping、および Zhang Zhenyu に感謝いたします。

参考文献

[1] Xiang Li、Cunwei Fan、Weiluo Ren、Ji Chen。効果的なコアポテンシャルを備えたフェルミオンニューラルネットワーク。物理学。Rev.リサーチ2022。

[2] Ren、W.、Fu、W.、Wu、X. 他。ニューラルネットワーク上の拡散モンテカルロを介して分子の基底状態へ。ネイチャーコミュニケーション14号、2023年。

[3] Ruichen Li、Haotian Ye、Du Jiang、Xuelan Wen、Chuwei Wang、Zhe Li、Xiang Li、Di He、Ji Chen、Weiluo Ren、Liwei Wang. フォワード ラプラシアン: ニューラル ネットワーク ベースの変分モンテのための新しい計算フレームワークカルロ。2023年。

[4] Li, X.、Li, Z. & Chen, J. ニューラル ネットワークによる実際の固体の非経験的計算。Nature Communications 13、2022。

[5] Yubing Qian、Weizhong Fu、Weiluo Ren、Ji Chen。ニューラル ネットワークに基づく変分量子モンテカルロからの原子間力。ジャーナル化学物理学。157、2022。

[6] Xiang Li、Yubing Qian、Ji Chen。多体ニューラル ネットワーク Ansatz からの電気分極、2023 年。

[7] Li, W.、Huang, Z.、Cao, C.、Huang, Y.、Shuai, Z.、Sun, X.、... & Lv, D. (2022)。近い将来の量子コンピュータ上での現実的な化学システムの実用的な量子埋め込みシミュレーションに向けて。化学科学、13 (31)、8953-8962。

[8] Cao, C.、Sun, J.、Yuan, X.、Hu, HS、Pham, HQ、および Lv, D. (2023)。量子埋め込みを使用した強相関材料の非経験的量子シミュレーション。NPJ計算資料、9(1)、78.

[9] Zhang, Y.、Huang, Y.、Sun, J.、Lv, D.、および Yuan, X.、2022 年。量子コンピューティング量子モンテカルロ。arXiv プレプリント arXiv:2206.10431。

[10] Xie, Y.、Shi, C.、Zhou, H.、Yang, Y.、Zhang, W.、Yu, Y.、Li, L.、MARS: 多目的創薬のためのマルコフ分子サンプリング、 ICLR 2021。

[11] Long, S.、Zhou, Y.、Dai, X.、Zhou, H.、2022 年。スケッチと生成によるゼロショット 3D 薬物設計。神経情報処理システムの進歩、35、pp.23894-23907。

[12] Zheng, Z.、Deng, Y.、Xue, D.、Zhou, Y.、Ye, F.、Gu, Q. 構造情報言語モデルはタンパク質の設計者です。ICML 2023。


NLP グループに入る -> NLP 交換グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/132843911