后基因组行为遗传学:从革命到常规(上)

微信搜索“行为基因组学和脑机接口”,关注我们!

全文链接


摘要

行为基因组学(Behavioral Genomics)是从行为遗传学(Behavioral Genetics)衍生出来的学科,它结合了遗传学的各个要素,采用基因组学的研究方法来解决行为遗传学的问题,是对生物的整个基因组进行研究的科学。老周说,行为遗传学是行为基因组学的爸爸,那么首先从行为遗传学开始讲起。

一、Introduction

行为的遗传分析涉及两种相互竞争且几乎相反的方法。

一种是downward方法,从表型利用QTL、WGS等走到分子层面;一种是upward(reverse genetics)方法,从分子层面来说什么会“影响”(很少是“决定”)行为。

两者中的较老者,有时被称为正向遗传学或经典遗传学,始于个体之间行为的有趣且可遗传的差异,并试图定义促成这些差异的基因位点、序列变异和系统。

多年来,这两个研究人员团队在许多相同的问题上背靠背地工作。常不互相倾听。

一方面,前向遗传学界热情地使用越来越复杂的方法来精细定位对行为影响不大的多种变体。另一方面,反向遗传学界热情地使用越来越复杂的分子方法来修饰DNA序列并定义对行为的影响-几乎总是在单个遗传背景下进行。两种方法都可以建立因果模型,但是正向方法的优点是与自然种群和导致大多数人类神经病和精神病的表型能够与研究出来的成果直接挂钩。反向方法的优点是可以更直接地链接到机制。

在过去的十年中,正向和反向方法已经开始融合,并且由于高通量基因组方法(特别是基因组和转录组测序)而成为了快乐的合作伙伴。这两种方法杂交的一个例子是,QTL作图的最后阶段现在涉及对大量候选基因的序列变体进行几乎强制性的分析。具有高潜在生物影响力的多态性(例如,错义和无义突变,missense and nonsense)往往在可能的机制中排名较高。尽管我们专注于小鼠模型,但几乎总是将这些相同的方法直接应用于其他物种,尤其是人类。

二、使用序列数据把QTL映射到行为上

基因组序列数据的分析现在是QTL分析的强制的最后一步。虽然有些以做mapping为生的人痴迷于我们的QTL置信区间的大小,目标是降至1 Mb或更小,但这实际上是一个老式的指标,在后测序世界中,一个更重要的指标是一个区间内的基因数量和序列变体的类别。

最明显和最有趣的变体是无义和错义“突变”,会对蛋白质的结构和功能产生严重影响。当全测序数据可用于杂交亲本时,就可以按照估计的生物学影响,列出各种变异、启动子、UTR、内含子、增强子和可疑调控元件等。

有两个非常重要的警告:

  • 对于小鼠,人类,大鼠和果蝇的序列数据仍然远远不够完善。尽管SNP,小的indel和拷贝数变异通常能使用金标准双脱氧链终止法进行重新测序,但很难检测到倒位和更长的重复多态性(200至2000
    bp)。这意味着某些似乎没有SNP或插入缺失的区间可能包含具有巨大影响的隐秘变异体。
  • 将变体分配给特定基因并不总是那么简单。人类全基因组研究突出了具有令人印象深刻的LOD得分的SNP,这些SNPs与已知的编码基因甚至推定的调控元件均相去甚远。具有行为影响的变体可能根本不在编码蛋白质的基因内,而可能在非编码的转录本或pre-microRNA序列中,该序列调节一组基因和蛋白质的表达。多态性基因调控元件并不总是包含在规范基因区域内。这些元素可以在高达1-2兆碱基(Mb)的区域内交错interleaved。
    例如,人类FTO中的一个明显的因果(casual)SNP预测肥胖风险的基因(in intron 1)显然是增强子中的一个变异体,会影响邻近IRX3转录因子的表达。尽管我们强调了这些分析的复杂性,但我们认为这类问题还是相对较少见。此外,随着我们更多地了解基因组中控制元件的功能影响以及染色质环的复杂构型,甚至应该有可能对这些基因间和内含子变体进行更好的分类。

三、全现象(phenome-wide association)关联或反向复杂性状分析

从已知的序列变异体推演到为它影响的表型。

该分析可能很简单-只需计算序列变异体中或附近的SNP标记与一个或多个表型之间的相关性即可。零假设是,如果性状不受索引基因或该基因周围区域的调控,则相关性应接近于零。

然而,哪些表型可用于测试这些基因-表型(G-to-P)关联?需要多少case或strain才能拥有检测G到P链路的能力?如何控制假阳性?如何区别相邻序列的连锁作用?

全现象关联具有广阔的前景。

▲参考链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4740880/

在Dr. Xusheng Wang的文章中,提到全现象关联的简单过程:

有许多序列差异表,这些序列差异在两种常见近交系小鼠C57BL / 6J和DBA / 2J之间的杂交中分离。这些品系有约500万个不同的序列位点,其中约12,000个与错义变体有关与无意义和移码突变相关的则更加少。全现象组分析首先从选择少量有趣的序列变体和基因开始。例如,在BXD家族中,有经过验证的无义变异基因可能会破坏蛋白质功能,包括:Abca3,Peli3,Samhd1,Zfp277,Kif17,C15orf52,Etnk2, Proser3,Kcna10,Fam166b,Iqcc,Cela3a,Oog3,Gm5111 ,Cpamd8和Dlgap5。这些基因在大脑中具有相当高的表达水平。

以一个未知功能的新基因C15orf52为例,C15orf52(也称为A43105L19Rik)位于染色体(Chr)2上,大约为118.75 Mb。有各种各样的系统遗传学工具可用,以及包含先前已知信息的数据库。

每个类别仅举几个例子——

NCBI entrez:https://www.ncbi.nlm.nih.gov/gene

Gene Cards:http://www.genecards.org

GeneWiki: https://en.wikipedia.org/wiki/Portal:Gene_Wiki

表型和疾病之间的关系可以从“在线孟德尔遗传”(OMIM;http://www.omim.org)或“老鼠基因组信息学”(MGI;http://www.informatics.jax.org)中检索; 基因或其蛋白质产物的已知表达可在艾伦大脑图集Allen Brain atlas (http://www.brain-map.org), GenePaint(http://www.genepaint.org)或BioGPS(http://biogps.org)。

该基因(C15orf52)位于其他40个紧密基因的中间,所有基因间隔均为2 Mb。这些基因中的大多数在亲本菌株C57BL / 6J(简称B)和DBA / 2J(简称D)之间的杂交中具有高度多态性。问题在于,尽管我们可以使用BXD的大型表型杂交集合来轻松查找表型并将其“reverse map”到C15orf52区域,但很难将其严格地归因于C15orf52中的D的nonsense突变。

比如进行下面的步骤来尝试找一下:

找到位于所有BXD strain中已进行基因分型的突变附近的SNP。SNPrs27440124是一个不错的选择,它将用作实际突变的位置替代。
计算SNP基因型之间的相关性,如果基因型是BB,则编码为-1;如果BD,则编码为0;如果DD,则编码为+1。与该SNP协变的最高性状与单次用1.5g/kg乙醇处理后运动激活程度的显着差异有关。G-to-P的相关性为0.65,D单倍型与活性的增加相关,而等位基因B与最小的变化甚至适度的降低相关(BXD Phenotypes 10129, 10791, and 10792 in http://www.genenetwork.org).标称p(nominal P)<0.0005,这似乎是一个合理的引人注目的p值,但在我们执行了几千次提取最高匹配次数的测试的情况下,p值没这么吸引人了。可以用FDR-p-value。现在我们也可以反向分析,并询问该性状(trait)在C15orf52附近map到Chr 2有多强。
我们使用前向方法来确认G-to-P关联性与重要的QTL相关。这并不是必须的,但是这能证明反向和正向方法正在合并。所有的急性乙醇活化性状都精确地映射到Chr 2,其LOD峰值在116.6和118.9 Mb之间约为3。

我们的第一个结论是——

可以完全确定至少有一个有趣的特征与小鼠C15orf52突变相关,即“急性乙醇运动活性”。为了验证或驳斥C15ORF52蛋白调节对乙醇反应的假设,我们希望使用基因工程技术,使用B单倍型的strain的基因中插入deletion,或者更好的方法是修复该strain中的无义突变。具有D单倍型,并显示出明显的乙醇诱导的运动活性调节。这将验证G对P的因果关系,并使我们走上了解酒精作用对大脑功能和行为的遗传机制的道路。

对大脑和行为的遗传学研究正在逐渐变得越来越大和系统化。

就人类行为疾病的全基因组研究而言,样本量为王。

该过程的驱动力是大多数序列变异对行为特征的影响较小,即使是遗传性很高的变异,例如自闭症和精神分裂症中就有这种情况。但是,还有另一个大小维度可能更重要,而且引起的关注也要少得多,这是每个对象获得的现象组的大小。这是生物医学研究中的一个巨大盲点,这是由我们的家庭手工业式的研究方法带来的。

很少有研究者具有专业知识或预算来采取整体方法对人类,小鼠,大鼠或果蝇进行表型分析,尤其是在非自交(non-inbred)群体中,包括具有独特基因组和有限寿命的个体。对于这些人群,每个人都需要进行大量测试,并且可能会产生残留效应,其中较早的测试会影响后续测试的结果。即使这些残留效应很小,但在测试整个现象时它们也可能具有累积效应(carryover effect)。这些可能被视为对环境的影响,并且可能导致不同队列之间缺乏可复制性。在近交群体中,这可以克服:可以在具有相同基因组的不同个体中进行测试。

我们可以预期,在大型人群中,参与者之间的环境将有很大不同,结转效应很可能会被其他人淹没环境噪音。在可以严格控制其他环境变量的模型生物种群中,这种残留效应可能对环境变异性的影响更大。克服此问题的一种相对简单的方法是在不同的个人中以不同的顺序进行测试,并将测试顺序作为协变量,但是,这将需要更大的样本量才能保持功效。

参考文献:

Ashbrook, D. G., Mulligan, M. K., & Williams, R. W. (2018). Post-genomic behavioral genetics: From revolution to routine. Genes, brain, and behavior, 17(3), e12441.
阅读原文


后面的精彩内容请移步下篇。

后基因组行为遗传学:从革命到常规(下)

猜你喜欢

转载自blog.csdn.net/weixin_44099023/article/details/112177894