【Genome Biology 2023】EvoAug:通过进化启发的数据增强,提高基因组 DNN 的泛化和可解释性

EvoAug: improving generalization and interpretability of genomic deep neural networks with evolution-inspired data augmentations 

开源的 PyTorch 包:https://pypi.org/project/evoaug

https://github.com/p-koo/evoaug

论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02941-w

相关报道:https://techxplore.com/news/2023-05-ai-cat-pic.html


深度神经网络(DNN)有望应用于功能基因组学预测,但它们的泛化能力可能会受到可用数据量的限制。为了解决这个问题,冷泉港实验室的研究人员提出了 EvoAug,这是一套受进化启发的数据增强,通过增加遗传变异来增强基因组 DNN 的训练。

DNA 序列的随机转换可能会以未知方式改变其功能,因此研究人员使用原始未转换数据,并采用微调程序来保持功能完整性。结果表明,EvoAug 显著提高了已建立的 DNN 在突出的监管基因组学预测任务中的泛化和可解释性,为基因组 DNN 提供了强大的解决方案。

揭示顺式调控元件及其协调的相互作用,是调控基因组学的主要研究目标。深度神经网络(DNN)通过接受训练,将 DNA 序列作为输入,预测其调节功能输出,为从头学习这些基因组特征提供了一条有前途的途径。经过训练,这些 DNN 已被用于对疾病相关变异的功能影响进行评分。此外,事后模型可解释性方法表明,DNN 的决策基于转录因子 (TF) 结合位点的学习序列基序,以及与其他序列上下文的依赖性。

对于 DNN,泛化能力通常会随着训练数据的增加而提高。然而,高通量功能基因组学实验中生成的数据量,受到基础生物学的限制。例如,某些转录因子与 DNA 结合的程度,受到可及染色质中高亲和力结合位点可用性的限制。为了扩展有限数据集,数据扩充可以对现有训练数据提供额外的变体。数据扩充作为一种正则化形式,引导学习函数对数据转换创建的对称性不变。这种方法有助于防止 DNN 过度拟合虚假特征并提高泛化能力。基因组学中数据增强的主要挑战是量化给定转换的调节功能如何变化。

对于图像数据,基本的仿射变换可以在不更改其标签的情况下平移、放大或旋转图像。然而,在基因组学中,可用的中性增强是反向补码转换和输入序列的小随机翻译。由于实验数据的大小有限和增强方法的缺乏,促进基因组 DNN 泛化的策略是有限的。

冷泉港实验室的研究人员开发了 EvoAug,这是一个开源 PyTorch 包,它提供了一套受进化启发的数据增强。使用 EvoAug 训练 DNN 可以带来更好的泛化性能,并通过标准的事后解释方法提高效率,包括过滤器可解释性和归因分析,跨越成熟的 DNN 的重要监管基因组学预测任务。它极大地扩展了基因组 DNN 的可用数据扩充集。

该研究结果支持关于使用进化作为数据增强的自然来源的论点。有趣的是,合成进化扰动的影响并没有过度破坏,在大多数情况下,性能甚至在微调之前就有所提高。这种功能稳健性似乎是非编码基因组的一个特征。

数据增强是一种常用的技术来平衡机器学习模型中的偏差和方差。但是,随着数据集大小的增加,它们的有效性预计会降低。尽管如此,EvoAug 仍然提高了已经很大的 Basset 数据集的性能。其他可以增强泛化能力的方法包括多任务学习、对比学习和语言建模。

尽管 Basset 和 DeepSTARR 已经在多任务框架中接受过训练,但 EvoAug 提高了它们的性能。多任务处理可能会引入类不平衡,但 EvoAug 提供了带有伪正标签的额外示例,可以缓解此问题。EvoAug 还提供不同的数据视图,这对于对比学习很有用。重要的是,EvoAug 是一种轻量级且有效的策略,只需要原始数据。

增强的最佳组合及其超参数选择取决于模型和数据集。虽然研究人员在这里执行了超参数网格搜索,但更高级的搜索策略(例如使用 Ray Tune 的基于人口的训练)可以提高效率。未来,他们计划研究 EvoAug 在跨数据集泛化和变异效应预测方面的潜力,包括表达数量性状基因座。

EvoAug:通过进化启发的数据增强,提高基因组 DNN 的泛化和可解释性

猜你喜欢

转载自blog.csdn.net/weixin_43135178/article/details/130765173
DNN