第一节 泛基因组(Pan-geneome)是什么

1. 引言

这是跟着NG学习泛基因组的第一个章节。首先,了解概念性的东西。自己知道泛基因组这个概念,应该是在黄三文老师的“优薯计划”的项目研究中,以及后面有几篇大文章(具体是什么,自己记不清楚了)。算是了解很晚的,自己一直不做这块,因此对Pan-geneome的了解很少很少。作为一个系统性的学习,必须从基础开始。了解概念和原理,这对自己后期的实验设计或分析有较大的帮助。

自己在知乎上一搜,这块有很多的教程。有的确实讲的很详细,很nice,值得推荐!值得我们学习!!那么,概念这部分,自己就通过这些大佬的教程来学习总结吧!


**注意:**全文共有4819个字,大概花费你0-10分钟。

2. 本文内容来源

自己对这块的基础为零,因此,在网上搜索教程,很多教程都是非常nice,我在本文中的会直接引用(复制),再次进行整理。在此,感谢各位博主的资源分享。如有侵权,请联系。

**来源:**Molecular Plant(Mol Plant植物科学),原文链接:Plant pan-genomics and its applications

来源:知乎账号(eplants),原文链接:https://zhuanlan.zhihu.com/p/176135716

来源:知乎账号(飞翔高空),原文链接:https://zhuanlan.zhihu.com/p/612364387

**来源:**公众号(百迈客生物),原文链接:https://mp.weixin.qq.com/s/UhB8BJ9K3GbCtYLu4mDu2g


3. 什么是泛基因组(Pan-geneome)?

在漫长的物种进化过程中,因为自然选择和人为选择等因素的影响,每个个体都形成了特别的遗传性状。近年来,对同一物种多个个体的基因组或基因组片段的比较分析表明,一个物种内(尤其是同种水平下的品种、变种、地方种、野生栽培种间)的基因组可能以更显著的方式存在差异(包括结构变异(SV)的多样性),这些变异可能包含一个或多个基因并影响到物种重要的农艺性状。

因此,对于一个物种来说,如果只使用单一的参考基因组进行遗传驯化变异的研究,可能会丢失掉大量有意义的基因信息。为了解决这些问题并充分理解关键物种中重要性状形成机理,为育种奠定重要的研究基础,动植物泛基因组研究应运而生。

在NCBI中搜索,关于 Pan-geneome的文章,2022年数量达到2818篇,2023年847篇了,非常恐怖的数量。其中不缺乏Nature、Cell等的大文章,

3.1 定义

定义:泛基因组进而可以分为,核心基因(core genome)和非核心基因(dispensable/variable/accessory/genome)。核心基因:在所有动植物品系或者菌株中都存在的基因;非核心基因:在1个以及1个以上的动植物品系或者菌株中存在的基因。

3.2 什么要泛基因组

泛基因组研究主要致力于鉴定种内不同个体间可变的DNA序列。在植物中,这些可变序列与结构变异紧密相关,其中转座子、非同源重组、远缘杂交/平行基因转移、多倍体植物重复基因的选择性丢失都可能导致结构变异的产生。泛基因组的研究方法主要经历了三个阶段:1.从利用短序列进行全基因组结构变异的挖掘以及Map-to-pan策略构建泛基因组;2.过渡到基于高质量基因组组装和比较的泛基因组构建;3.最新的基于图形基因组(graph genome)的泛基因组构建和分析方法。

或是换一句话说,来自的eplants博主的教程。

在漫长的进化过程中,由于地域因素,环境因素等的影响,每个个体都形成了极其特别的遗传性状,单一个体的基因组已经不能涵盖这个物种的所有遗传信息。多项研究表明,选取野生近缘种(CWRs)进行泛基因组分析,能够检测在驯化和育种过程中的基因保留和丢失,支持对丢失多样性的描述和将基因重新引入现代品种的潜力。例如,在南美洲和中美洲番茄驯化过程中与风味有关的基因发生丢失,后来又被重新引入。同时,对不同环境下野生物种基因分布进行研究,有助于培育更适应不同环境气候变化的作物。比如,PAV基因容易富集在对非生物和生物胁迫反应有关的通路中,尤其是抗病相关通路,类似的结论在单子叶、双子叶甚至人类中都有发现。技术的发展。由于基因测序变得更加廉价,为近年来火爆的泛基因组的研究提供了可能性。尤其是,三代测序技术(PacBio or Nanopore Technology)无论在基因组组装还是在结构变异检测上具有极大的优势,成了现今泛基因组研究的核心技术平台。

泛基因组通过对不同品种基因组进行测序、组装,然后将组装好的基因序列进行整合注释,进而获取这个物种全部的遗传信息并且对每一个个体间遗传变异信息进行解析。

3.3 泛基因组的分类

泛基因组可以分为:核心基因(core genome)和非核心基因(dispensable/variable/accessory/genome)和特有基因(Private,仅在一个品系中存在的基因)三个类型。

核心基因与非核心基因示意图

随着基因组数量的增加,核心基因的识别将严重受到denovo中组装错误的影响。为了纠正这种错误,一些科研工作者将泛基因组进一步细分:在所有基因组的为核心基因(core),在几乎所有品系中发现的为soft-core,在比soft-core少但不止几个品系的品系中发现的shell,以及在只有几个品系中发现的为cloud。具体的分类比例与样品数量间的关系并不固定,目的均是为了对基因进行分组,以便进行可靠的比较。而这些分组的基因频率呈现不对称的首尾高中间低的分布形式,充分展示了不同类别基因型的占比情况。

除此之外,根据core、dispensable等各组分聚类结果构建基因家族的存在与缺失分布热图,进一步了解不同材料中的差异情况。同时可结合不同来源or不同表型等特征充分挖掘其基因型的多态性。

从进化的角度来讲,pan-genome中鉴定出的核心基因(core genes)可能是执行关键功能的基因,其在一个物种中倾向于一些保守的基因。相反,非核心基因促进了物种的多样性,使其能够适应各种环境条件。核心基因通常富集到控制着生命体基本生成代谢的基本细胞功能,而非核心基因则富集到与环境和防御反应,受体和抗氧化剂活性,基因调控以及信号转导等相关的功能。通过功能注释可了解到核心、可变与特有基因家族的功能情况,从而找寻物种特异的功能与性状形成相关通路。

众多研究表明,非核心基因比核心基因的可变性更强;与核心基因集相比,非核心基因集中的非同义突变比同义突变的比率要高。因此通过同义与非同义突变(ka/ks)可以用来检测非核心基因集中基因是否受到选择作用。

4. 植物泛基因组的主要研究进展及应用

目前在水稻、玉米、小麦、大豆、棉花、高粱、番茄等十余种植物中,已利用Map-to-pan、全基因组序列比对或图形基因组的方法构建了泛基因组图谱。泛基因组的序列集合大小可以达到单一线性基因组的3倍以上。此外,借助泛基因组图谱,全基因组关联分析可以鉴定到一些之前无法捕捉到的基因位点,揭示了泛基因组在完整性和准确性上相对个体基因组的优势。此外,论文还对泛基因组所涉及的非编码区多态性以及整合不同物种的“超级泛基因组”进行了总结,强调了挖掘非基因区功能变异以及超级泛基因组中野生种功能基因的重要意义。

个人感悟: 其实,目前很多的作物的在泛基因组中有深入的研究。但是,可以把这块做得很好的,或是应用在生产中的,仍有一段的距离。在工作后,我们这边一直说,将研究要与生产联系在一起,但基础研究投入到生产中,仍需要走很长的路。


Plant pan-genomics and its applications一文中也提及,泛基因组的应用。但仍是只针对基础研究中的应用。

本文提及泛基因组在遗传学研究和育种中的应用总结和展望,涉及关联作图群体基因组学分析表观遗传学分析基因组选择基因聚合基因编辑等多个方面。其中,作者提出基于T-2-T基因组骨架的图形基因组可能是未来进行关联作图和群体基因组学分析的理想选择之一。此外,图基因组已被证明在番茄中可以挽救部分“消失的遗传力”,也体现了其作为参考序列应用于基因组选择的巨大潜力。
![](https://files.mdnice.com/user/40177/25ae4666-f035-40df-aa25-8902dba69c86.png

5. 如何做泛基因组分析

泛基因组分析有助于理解物种的特征,同时泛基因组图谱提供的复杂基因组变异,有助于解析作物表型和农艺性状的多样性。选择不同亚种材料进行泛基因组测序,可以研究物种的起源及演化等重要生物学问题;选择野生种和栽培种等不同特性的种质资源进行泛基因组测序,可以发掘重要性状相关的基因资源,为科学育种提供指导;选择不同生态地理类型的种质资源进行泛基因组测序,可以开展物种的适应性进化、外来物种入侵性等热门科学问题。

在eplant博主的博文中,介绍了植物泛基因组的构建方式。

  • 迭代组装
  • 多个体Denovo
  • 图形基因组

迭代组装指将多个样本的下机数据比对到一个参考基因组后,将未比对上的reads(unmapped reads)组装成新的contigs。通过将这些新的contigs添加到原始的参考序列中,就可以构建一个泛基因组。

自己看到过得文章,很多都涉及这样的组装方式。

多个体De novo即对多个样本同时进行组装注释,从全基因组层面识别PAV,也是目前运用最广的方法

图形泛基因组是以参考基因组为框架,将其他个体材料基因组序列与之比对,存在差异的地方构成不同的分支,并随着新序列的加入不断扩展变化,最终构建出一个包含全部变异信息的复杂图形结构(图11)。图形泛基因组可以更好的展示每部分序列在泛基因组中的位置关系,使构建一个包含物种内全部遗传信息的泛基因组成为可能。图形泛基因组已经在大豆、水稻、牛、高粱等物种有了初步构建与应用,为基因组学研究提供了一个重要的推动力。

5.1 泛基因组的材料选择

泛基因组可以是开放的或关闭的。当泛基因组关闭时,对足够数量的个体进行测序,几乎可以获得整个基因/序列信息,可以预测泛基因组的理论大小。相反,当泛基因组开放时,每增加一个新的个体,新的基因就会被整合到泛基因组中,使得不能预测最终的泛基因组大小。

5.1.1 数量选择

影响泛基因组规模的因素之一是非核心基因所占百分比 (在作物泛基因组的研究中,非必需基因组的比例从8%上升到61%),其中,样本量是泛基因组究的重要因素。在构建泛基因组开始,随着鉴定新基因的个体数目的增加,泛基因组的大小也随之增加,但核心基因的百分比随之下降。

5.1.2 材料特性

材料的选择对pan-genome研究的检测效率和完整性也有十分重要的影响:1. 亲缘关系远近:亲缘关系近的材料的选择将会低估pan-genome的大小;2. 野生种质与栽培种质的结合:野生种质和栽培种质的结合可产生更大种规模的pan-genome,其非核心基因的比例比单纯的利用栽培作物材料的高出很多。

对于泛基因组材料上的选择,自己还是比较了解一点。泛基因组的材料选择与全基因组的分析是类似的。都是从材料的数量上和材料特异性上做文章。材料特异性,基本都是栽培种与野生种之间的差异。栽培种在经过驯化后,基因的突变或是抗性等方面受到影响,从而通过野生种进一步的筛选出我们想要获得基因,进而获得表型基因。

6. 泛基因组的分析

    1. 泛基因组特征分析
    1. 泛基因组变异分析
    1. 新基因鉴定
    1. 系统进化分析
    1. 群体变异

自己总结,泛基因组最终的目的就是为了寻找群体变异位点。

6.1 泛基因组特征分析

主要包括:

  • 核心基因组的大小是多少(有多少基因/基因家族在所有个体中都存在)
  • 泛基因组的大小是多少,在这些物种里共有多少基因/基因家族
  • 泛基因组研究会对核心基因组和可变基因组进行比较(因特性,比如平均基因长度、外显子数目,SNP 密度、Indel 密度,基因表达水平,- 泛基因组研究会对核心基因组和可变基因组进行比较(因特性,比如平均基因长度、外显子数目,SNP 密度、Indel 密度,基因表达水平等)

6.2 泛基因组变异分析

结构变异是泛基因组的重点研究对象,这些变异信息为物种的人为选择及自然选择提供原始的材料。了解变异产生的过程,探究不同材料的变异程度并利用有利的变异对维持并提高物种生产力至关重要,有助于解析物种表型和农艺性状的多样性。

泛基因组研究,为更好地了解SV在动植物驯化中的作用提供了基础。主要研究的变异类型为:SNP,即单核苷酸多态性变异,主要指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起。InDel,指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在在 2 bp-50 bp 之间。SV(Structure Variantions),即基因组结构性变异,通常指的是基因组上大长度的序列变化和位置关系变化,有丰富的变异类型,包括长度在50bp以上的长片段染色体倒位、染色体易位、重复、存在/缺失(PAV)、拷贝数变异(CNV)。

6.3 新基因鉴定

泛基因组分析能鉴定出参考序列中不存在的基因,对这些新基因进行功能分析。

6.4 系统进化分析

对物种进行广而深入的进化研究,以了解物种的起源与演化。同时,还能结合生物地理学分析物种传播途径的演化。泛基因组研究收集到的数据是较全面的,因此,在某些情况下可以解决物种进化分歧的问题。

在NG这篇文章中,也是对不同品种的番茄的起源和演化进行探讨。

6.5 群体变异

由于泛基因组保留了群体完整的基因组多样性,可鉴定到单一参考基因组无法鉴定的基因组变异。泛基因组结合GWAS、QTL等数据,可进一步提高变异与性状关联的精度,捕获到更加完整的遗传变异信息,植物遗传学家和育种者提供全面的基因组资源,对于物种育种和研究具有重要的意义。


对于泛基因组的知识,目前自己还没有消化,还需要要走很长的路。今天仅仅只是看了基础性的知识点,很多概念还是需要进一步的了解和巩固才可以。

话说公众号需要标星,这样公众号的内容你才不会错过。那么,我们也动手标一下吧。

小杜的生信筆記,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

猜你喜欢

转载自blog.csdn.net/kanghua_du/article/details/130136008
今日推荐