丢失的遗传力--Missing heritability

这两天被黄三文老师的团队刷屏了(2022年6月8日,中国农业科学院深圳农业基因组研究所(“基因组所”)黄三文团队在Nature 杂志同时在线发表了两篇研究论文),报道了该团队在植物基因组学领域的两项重要研究成果,为实现泛基因组在作物育种的应用提供了新的解决方案。其中一篇《Graph pangenome captures missing heritability and empowers tomato breeding》介绍了通过图泛基因组(Graph Pan-genome)解释了重要的数量遗传学的问题:丢失的遗传力。

这里学习一下这个概念,并给出我的理解。

丢失的遗传力

“遗传力丢失”( Missing heritability)是一个重要的数量遗传学问题,即通过遗传标记估计的遗传力以及通过全基因组关联分析(GWAS)发现的所有相关基因所贡献的遗传力总和均低于实际的遗传力。

计算方法是:根据数量遗传学遗传评估得到的遗传力是真正的遗传力,比如身高的遗传力是0.8,但是GWAS分析中显著性的SNP只解释了45%的变异(遗传力为0.45),这样还是有0.35的遗传力丢失了,这就叫做丢失的遗传力。

概念细分

遗传力,更通用的遗传力不是狭义遗传力和广义遗传力,而是:

第一种:h2 family :

h f a m i l y 2 h^2_{family} hfamily2,双胞胎研究,通过比较同卵与异卵双胞胎的相似性,计算得到h2,通常为这三种中最高。

飞哥理解:这个相当于加入了共同环境效应的重复力

第二种:h2 SNP

h S N P 2 h^2_{SNP} hSNP2,GWAS研究所用chip上所有variants共同解释的方差 与 性状方差的比值,比 h2 family 低,但会显著高于h2 GWAS。

飞哥理解:这个相当于是GBLUP中加性方差组分所在的百分比,即是狭义遗传力。

第三种:h2 GWAS

h G W A S 2 h^2_{GWAS} hGWAS2,仅由GWAS所发现的某疾病相关variants解释的方差 与 性状方差的比值 ,三者中最低。

飞哥理解:这个相当于是显著SNP占的百分比,PVE的值

上面三者的关系是

h G W A S 2 < h S N P 2 < h f a m i l y 2 h^2_{GWAS} < h^2_{SNP} < h^2_{family} hGWAS2<hSNP2<hfamily2

我们所说的消失的遗传力(Missing Heritability)就是:

h M i s s i n g 2 = h f a m i l y 2 − h G W A S 2 h^2_{Missing} = h^2_{family} - h^2_{GWAS} hMissing2=hfamily2hGWAS2

消失的遗传力主要原因:非加性遗传效应,效应量大的稀有变异(rare variants),或是双胞胎研究中由于共同的环境因素而造成的过高估计。

消失的遗传力又可以分为:

  • 依旧消失的遗传力(still missing heritability)
  • 隐藏的遗传力(hidden heritability)

依旧消失的遗传力(still missing heritability):
h s t i l l m i s s i n g 2 = h f a m i l y 2 − h S N P 2 h^2_{still missing} = h^2_{family} - h^2_{SNP} hstillmissing2=hfamily2hSNP2

隐藏的遗传力(hidden heritability)的计算方法:
h h i d d e n 2 = h S N P 2 − h G W A S 2 h^2_{hidden} = h^2_{SNP} - h^2_{GWAS} hhidden2=hSNP2hGWAS2

在GWAS研究中,由于我们所选显著阈值的高低,遗传力或许并不是消失(missing)而是被隐藏( hidden )了。另一种可能则是,人群的异质性(heterogeneity),因为 h2 GWAS 大多来自包含多群体的meta分析,而遗传效应在这些群体中的异质性也可能使 h2 GWAS 偏低。

飞哥理解:在育种中,家系估计的遗传力(同卵双胞胎、异卵双胞胎)很少使用,我们感兴趣的应该是动物模型(GBLUP)估计的遗传力和GWAS显著SNP估计的遗传力相差的部分,即是:隐藏的遗传力(hidden heritability),能够找到导致差异的因素,对于我们实施分子标记辅助(MAS),比如显著性的SNP、INDEL,其它变异,以及实施全基因组选择(GS),考虑这些因素,放到模型中可以提升GS估计的准确性。

飞哥感言

Graph pangenome 的提出和应用,把利用多组学信息提升育种效率这句话落到了实践上!单纯算法上有机器学习、神经网络、强化学习,单纯生物学角度有基因组、转录组、蛋白组,但是图泛基因组的提出和应用,感觉才是最好的出路。对于育种数据分析的从业人员(比如我),是需要好好学习研究掌握这种方法的!

参考:

《An Introduction to Statistical Genetic Data Analysis》
https://zhuanlan.zhihu.com/p/362604272

猜你喜欢

转载自blog.csdn.net/yijiaobani/article/details/125205325