AI制药中的一些思考和想法

自监督直接和具体任务的结合（Task Related Self-Supervised Learning）是个可探索的方向，已经在很多任务中初露头角，也比较符合审稿人的口味。

自监督学习与vision transformer结合

我们可以说 GNN 实际上偏爱结构丰富的分子。例如，三个以上的环串联在一起，但不利于链较长的分子。相比之下，transformer 偏爱相对较长的分子，但不偏爱具有重组的分子。它们是互补的，受此启发，我们提出了一个新模型，将这两种模型结合在一起。这就是我们称为双视图分子预训练的解决方案。

Dual-view molecule pre-training（双视图分子预训练）

原文使用的是第二种方式，我们是否可以将MCL改成第一种，或者他们的结合？

1、分子建模的第一种方式（通过1D的 SMILES mask）
如果我们把一个分子看作一个 SMILES 字符串，我们可以使用transformer来处理这个分子。让我们在这里以蛋白质为例。为了输入它的 SMILES 序列，我们随机屏蔽了一些标记，并使用transformer重建屏蔽标记。

2、分子建模的第二种方式（通过2D的图像mask）
我们也可以将分子视为二维图。我们还可以mask一些原子和字母 G 模型来恢复被屏蔽的原子。

对于未来，有很多有趣的方向，

首先，我们将在药物开发方面尝试multitasks，
其次是我们将设计更先进的模型。例如，如何设计更强大的 GNN 模型，以及如何使用单个模型同时涵盖 Transformer和 GNN。
第三，我们将尝试更多的数据。目前，我们使用了1 亿个数据，我们希望在未来尝试更多。

局限性：
(1)在分子图像中整合更大规模的生物医学数据和更大容量的模型(如ViT)必然是工作的重点；
(2) multi-view learning of joint images 和 other representations(e.g. SMILES and graph)的多视图学习是一个重要的研究方向；
(3)引入更多的化学知识(包括原子性质、3D信息等)也是一个值得研究的问题。【将额外的化学知识(如原子属性和3D结构信息)集成到每个图像或像素区域可以进一步提高ImageMol的性能】

AI制药中的一些思考和想法

猜你喜欢