AI制药中的一些思考和想法

自监督直接和具体任务的结合(Task Related Self-Supervised Learning)是个可探索的方向,已经在很多任务中初露头角,也比较符合审稿人的口味。

自监督学习与vision transformer结合

我们可以说 GNN 实际上偏爱结构丰富的分子。例如,三个以上的环串联在一起,但不利于链较长的分子。相比之下,transformer 偏爱相对较长的分子,但不偏爱具有重组的分子。它们是互补的,受此启发,我们提出了一个新模型,将这两种模型结合在一起。这就是我们称为双视图分子预训练的解决方案。

Dual-view molecule pre-training(双视图分子预训练

原文使用的是第二种方式,我们是否可以将MCL改成第一种,或者他们的结合?

1、分子建模的第一种方式(通过1D的 SMILES  mask)
 如果我们把一个分子看作一个 SMILES 字符串,我们可以使用transformer来处理这个分子。让我们在这里以蛋白质为例。为了输入它的 SMILES 序列,我们随机屏蔽了一些标记,并使用transformer重建屏蔽标记。

 2、分子建模的第二种方式(通过2D的图像mask)
 我们也可以将分子视为二维图。我们还可以mask一些原子和字母 G 模型来恢复被屏蔽的原子。

对于未来,有很多有趣的方向,

首先,我们将在药物开发方面尝试multitasks,
其次是我们将设计更先进的模型。例如,如何设计更强大的 GNN 模型,以及如何使用单个模型同时涵盖 Transformer和 GNN。
第三,我们将尝试更多的数据。目前,我们使用了1 亿个数据,我们希望在未来尝试更多。

局限性:
(1)在分子图像中整合更大规模的生物医学数据和更大容量的模型(如ViT)必然是工作的重点;
(2) multi-view learning of joint images 和 other representations(e.g. SMILES and graph)的多视图学习是一个重要的研究方向;
(3)引入更多的化学知识(包括原子性质、3D信息等)也是一个值得研究的问题。【将额外的化学知识(如原子属性和3D结构信息)集成到每个图像或像素区域可以进一步提高ImageMol的性能】

猜你喜欢

转载自blog.csdn.net/weixin_43135178/article/details/126469949