扩散模型新应用——微软推出蛋白质生成框架EvoDiff

作者 | 谢年年

最近，微软推出了一个名为EvoDiff的通用框架，据称它可以根据蛋白质序列生成“高保真度”和“多样性”的蛋白质。

这项技术的意义非凡，因为蛋白质是构成我们身体的疾病的基本组成部分。通过研究蛋白质，我们可以揭示疾病的机制，并找到减缓或逆转疾病的方法。

大模型研究测试传送门

GPT-4传送门（免墙，可直接测试，遇浏览器警告点高级/继续访问即可）：
https://gpt4test.com

而通过创造蛋白质，我们可以开发全新的药物和治疗方法。

目前，设计蛋白质的过程非常复杂且昂贵，但EvoDiff的出现可能会改变这一现状。它不需要目标蛋白质的结构信息，从而省去了最繁琐的步骤。

这项技术有望应用于新型治疗药物和药物传递方法的酶的创造，以及用于工业化学反应的新型酶的开发。

论文链接：
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1.full.pdf

github地址:
https://github.com/microsoft/evodiff

蛋白质生成成本高昂

从计算和人力资源的角度来看，目前在实验室设计蛋白质的过程成本高昂。

这个过程涉及两个关键步骤。

首先，需要找到一种蛋白质结构，这种结构可以在体内执行特定的任务。
其次，需要找到一种可能“折叠”到该结构中的蛋白质序列，也就是构成蛋白质的氨基酸序列。

只有当蛋白质正确折叠成三维形状时，它才能发挥其预期功能。这个过程需要大量的计算和人力资源，因此成本很高。

但有时候我们不必把事情搞得太复杂。

最近，微软推出了一个名为EvoDiff的通用框架。微软表示这个框架可以只在给定蛋白质序列的情况下，生成高保真、多样化的蛋白质。

与其他蛋白质生成框架不同的是，EvoDiff不需要任何关于目标蛋白质结构的信息，这样就省去了通常最费力的步骤。

产生蛋白质的过程

▲产生蛋白质的过程

EvoDiff框架

EvoDiff框架的核心是一个6.4亿参数的模型，该模型是通过使用来自不同物种和功能类别的蛋白质数据进行训练而得到的。

训练模型所使用的数据来自于序列比对的OpenFold数据集以及UniRef50和UniProt的数据子集。

UniProt是由UniProt联盟维护的蛋白质序列和功能信息数据库。通过使用这些数据，EvoDiff框架能够训练出一个强大的模型，用于生成蛋白质等任务。

EvoDiff本质上是一个扩散模型，它的架构类似于一些现代图像生成模型，比如Stable Diffusion 和DALL-E 2。EvoDiff的目标是从几乎完全由噪音组成的起始蛋白质中逐渐减去噪音，逐步复原蛋白质序列。

扩散模型是一种在图像生成领域以外越来越广泛应用的技术。它不仅可以用于设计新型蛋白质，例如EvoDiff，还可以用于创作音乐甚至合成语音。这种模型的应用范围正在不断扩大。

不同于传统的蛋白质生成框架，EvoDiff不是基于蛋白质的结构，而是基于蛋白质的序列空间来设计蛋白质。这意味着它可以合成一种特殊的蛋白质，即无序蛋白质，这些蛋白质最终不会折叠成具有特定三维结构的形态。

尽管如此，这些无序蛋白质在生物学和疾病中仍然扮演着重要的角色。它们可以增强或降低其他蛋白质的活性，从而对生物体的功能产生影响。这表明无序蛋白质在细胞内具有多种功能，并且对于我们理解生物体的生物过程以及疾病的发生机制非常重要。

EvoDiff将推动蛋白质工程的发展

EvoDiff的另一位作者、微软高级研究员Ava Amini强调了根据序列生成蛋白质的重要性，并指出这一方法具有通用性、规模和模块性的优势。

Ava Amini还提到他们的扩散框架使他们能够控制蛋白质的设计，以实现特定的功能目标。这一框架为他们提供了生成蛋白质的能力，并且能够控制蛋白质的设计，使其具备特定的功能。

Amini认为，EvoDiff不仅可以创造新的蛋白质，还可以填补现有蛋白质设计中的“空白”。例如，如果蛋白质的一部分与另一种蛋白质结合，该模型可以在该部分周围生成符合一系列标准的蛋白质氨基酸序列。这意味着EvoDiff可以帮助科学家们设计出更多种类的蛋白质，从而拓宽了蛋白质的应用领域。

微软高级研究员Kevin Yang表示，EvoDiff将会开源。这个开源工具可以用来制造酶，用于新疗法和药物递送方法，以及用于工业化学反应的新酶。

该团队预计EvoDiff将推动蛋白质工程的发展，从传统的结构-功能范式扩展到可编程、序列优先的设计。

他们通过EvoDiff的实践证明了一个重要观点，即蛋白质生成不一定需要依赖特定的结构，只使用蛋白质序列本身也可以发挥有效的作用。这意味着他们可以通过可控地设计新的蛋白质来实现更多的应用。

但目前需要注意的是，EvoDiff背后的研究尚未经过同行评审——至少现在还没有。参与该项目的微软数据科学家Sarah Alamdari承认，在该框架投入商业使用之前，还有更多的扩展工作要做。

下一步计划

目前EvoDiff模型只有6.4亿个参数。如果将参数扩展到数十亿个，生成质量可能会更好。不仅如此，该团队还希望将EvoDiff应用于文本、化学信息或其他方式，以定制需要的功能。

EvoDiff团队还计划在实验室中测试他们模型产生的蛋白质，以确定这些蛋白质是否可行。如果测试结果证明可行，他们将开始开发下一代框架。

参考资料

[1]https://techcrunch.com/2023/09/14/microsoft-open-sources-evodiff-a-novel-protein-generating-ai/