统计遗传学:第三章,群体遗传

3. 群体遗传

大家好,我是飞哥。

前几天推荐了这本书,可以领取pdf和配套数据代码。这里,我将各个章节介绍一下,总结也是学习的过程。

引文部分是原书的谷歌翻译,正文部分是我的理解。

第一部分基础,分为六个章节,分别是:

  • 第一章:基因组基础概念(这部分介绍过了,点击进入)
  • 第二章:统计分析概念(这部分介绍过了,点击进入)
  • 第三章:群体遗传
  • 第四章:GWAS分析
  • 第五章:多基因效应
  • 第六章:基因与环境互作

​今天,介绍第三章的内容,群体遗传学的内容,看一下目录:

主要内容


本章节包括:

  • 基本了解人类从非洲扩散出去以及与遗传多样性的联系
  • 掌握人口结构的概念,并用主成分分析检测人口分层
  • 了解人口结构的常见误称,以及祖先不等同于社会建构的种族类别,这不是生物分类
  • 了解基因如何反映地理·识别进化的基础、自然选择、适应性、选择类型和相关术语·
  • 了解进化如何通过瓶颈或创始人效应形式的基因漂移发生
  • Hardy-Weinberg平衡的含义·掌握连锁不平衡和单体型块的基本知识

人类走出非洲

这包括一些伟大的人类迁徙,以及智人与直立人、尼安德特人和杰尼索夫人之间的联系。了解我们来自哪里,有助于我们理解为什么撒哈拉以南非洲等特定人群的遗传多样性高于欧洲血统。

然后,我们定义了人口结构和分层的基本概念,以及如何使用主成分分析(PCA)来检测这一点。其次,揭穿了人口结构的常见误称和误用,并澄清了祖先不等同于种族,种族也不是生物学范畴。

然后,我们讨论基因实际上是如何反映地理的,并在这一研究领域给出几个例子。然后,通过首先描述进化和自然选择并将其与有益或有害等位基因等核心主题联系起来,概述了人类进化、选择和适应的广泛主题。接下来进一步阐述了选择、性选择和性二态性的适应性和变化。进化也可以通过所谓的遗传漂变发生,特别是瓶颈和创始人效应。你还需要理解哈代-温伯格平衡(HWE)的相关概念,包括主要假设和基本符号。在第一章中,我们讨论了多态性是如何通过连锁不平衡(LD)一起遗传的,在本章中,我们现在将其与我们在人群中观察到的单倍型块的结果联系起来。

飞哥笔记:PCA分析、群体结构分析、HWE哈温平衡,连锁不平衡分析LD,这些概念对于理解统计遗传很重要重要

人类的迁徙是指现代人类在大陆上的早期迁徙和扩张,大约在200万年前从非洲开始。简史如图3.1所示。人类是灵长类动物,是人类属和智人属中唯一幸存的成员。在人类科中,我们与大猩猩和猩猩最为接近。人类在500万至1000万年前从大猩猩和黑猩猩中分离出来。研究人员目前估计,直立人在一百万年前从非洲迁徙到亚洲和欧洲。大约在50万年前,他们被尼安德特人和杰尼索瓦人的第二个世系所取代。

大约5万至10万年前,智人作为一个新物种出现在南部非洲,然后传播到非洲。尽管大多数人群都是孤立的。

有证据表明,智人和尼安德特人之间发生了一些杂交,许多欧洲血统的个体仍藏有约2尼安德特人的一小部分。大约40000年前,智人的大规模迁徙形成了澳大利亚土著人的祖先,第二次迁徙在欧洲和亚洲殖民。大约15000至30000年前,东北亚的人口通过白令陆桥迁移到北美西北部。研究表明,这些群体通过海岸线分散在美洲各地。两人后来离开了亚洲

有证据表明智人起源于非洲。这是因为撒哈拉以南非洲的DNA序列变异模式最大。在遗传学中,遗传变异最大的群体被认为是最古老的群体。目前的知识把人类物种的摇篮放在现在位于南部非洲的现代纳米比亚和安哥拉。这归因于这样一个事实,即当人类迁移到新的区域时,他们在基因库中的遗传变异量会逐渐减少。

每个新群体都比其原始来源年轻,因此积累新突变的时间更少。事实上,对Khoi San布须曼人的测序表明,即使是来自相邻村庄的两个人,也与任何两个欧洲或非非洲血统的人一样不同

飞哥笔记:这与动植物育种类似,经过选择的品种(商品种),比野生群体多样性更差,LD衰减更快

群体结构和分层

PCA分析,群体结构分析

种群结构、遗传混合和主成分分析(PCA)尽管所有种群之间的大多数人类变异是相同的,但不同种群之间的迁徙和所谓的“混合”留下了种群结构模式的痕迹。当两个或两个以上先前分离和遗传分化的群体杂交时,就会发生遗传混合。结果是产生了新的遗传谱系。这种群体结构的模式允许遗传学家根据遗传学推断祖先。这种绘制或量化人口细分的能力称为人口结构。人口结构是指在遗传数据中发现的模式,使我们能够确定个人的祖先。它显示了由于基因混合,种群是如何划分的。

估计和检测人口分层最常用的方法是采用称为主成分分析的方法,并在本书后面(第9章)进行应用和更详细的讨论。主成分分析(PCA)是一种统计技术,用于强调变化并显示数据背后的强大模式,目的是将信息损失降至最低。这是一种将高维数据降维为低维数据的方法,并允许主成分(PCA可视化)

我们需要降低这个维度,因为我们在比较DNA序列时面临的最大问题之一是,30亿个碱基对中的每一个都代表一个可能的相似维度。或者,换言之,我们需要在巨大的30亿维上逐核苷酸(即以单个碱基对分辨率)比较一对个体。为了减少数据的30亿维,我们因此使用PCA来确定个体间遗传分化最大的轴。主成分分析按方差递减的顺序从数据中提取主成分。正如我们在《统计基础》一章中简短描述的那样,一些读者将PCA称为多维标度,它将数十万个SNP的完整矩阵简化为“特征向量”,以捕获协方差的中心分量。然后,使用二维散点图将这些元素相互绘制,以可视化个体和群体之间的差异。每个PC代表该成分捕获的全基因组基因型频率的变化量。大多数人类变异在所有群体中都是共享的,一些等位基因频率只有很小的变化。事实上,前两个PCA,只能解释很小的总体差异。在许多情况下,前两个PC解释了大多数遗传差异。

飞哥笔记:PCA降维,用前两个或者前三个表示十万个SNP的信息,做二维图,每个点就是每个样本。

种群和种族不同

一种常见的误解是,人口结构或PCA等同于种族或民族差异,这种说法显然是不正确的(见方框3.2)。人类遗传学中的祖先和种族这两个术语是不能互换的,进入这一研究领域时,必须对祖先群体之间的遗传差异进行充分知情和仔细的解释。遗传变异必须与社会变异相区别。

赋予不同人类群体的文化和政治意义。种族不是一个生物学范畴,因为正如我们在本章中所描述的那样,遗传变异可以追溯到地理位置,而不会映射到不断变化的、社会和政治上定义的种族或族裔群体。人口是数万年来反复混合的产物。因此,遗传等位基因在某些群体中的集中程度与他们的出身有关,与种族的社会类别无关。

GWAS分析结果的应用范围

我们在全基因组关联研究(GWASs)一章和其他地方简要介绍了迄今为止的大多数发现都是在欧洲祖先群体中进行的。由于连锁不平衡(LD)、等位基因频率和遗传结构的差异,基于GWASs的欧洲祖先多基因评分不能直接用于非欧洲祖先群体的预测。

例如,一个惊人的发现是,身高预计会随着与欧洲人的遗传距离的增加而降低。这与西非等实际观测高度相反。通过模拟,他们证明了基于欧洲人群的PGS由于其他人群的遗传漂变而存在偏差,并且偏差是不可预测的。

需要更多非欧洲血统的GWA研究发现来考虑不同的LD人口结构。通过这种方式,我们将能够发现因果SNP,以及那些在人群中点击率最高的LD可能不同的SNP。

例如,检测2型糖尿病和冠心病患者的PGSs。Reisberg等人指出,非洲和欧洲祖先群体的分布之间的差异以及由此产生的高风险和低风险估计之间的差异可能更大,非洲人群中2型糖尿病和冠心病的风险等位基因频率往往高于欧洲人群,这是非洲祖先群体中PGS表现更高的原因。正如我们在后面的章节中所描述的,用于PGS的SNP的频率包含一个强大的群体成分,即使不应用任何PGS权重。

基因如何和地理联系起来的

PCA方法已在多个研究中使用,在事先不知道其地理关系的情况下,按大陆、国家或国家内的地区对人口进行分层。如果主成分分析包括居住在非洲、亚洲和欧洲的个人,他们很容易区分。现在一个经典的例子是Novenbre等人2008年发表的《自然》论文,该论文描绘了遗传变异如何反映欧洲的地理状况[15]。如图3.2所示,作者使用人口参考样本显示了按原籍国进行的分层。群体参考样本是一种DNA资源,来自世界各地的大量受试者,以促进探索性遗传学研究[l6]。其中包括近6000名非裔美国人、东亚人、南亚人、墨西哥人和欧洲人。鉴于欧洲相对紧凑的地理位置和距离,Novenbre及其同事的研究结果清晰而显著。另一个例子是发表在《科学》杂志上的里程碑式的2014年研究,该研究考察了混合人群的基因组结构,以编制一份全球人类混合历史图谱【17】。作者将这些基因数据与过去4000年中发生的100多起历史事件相结合。他们能够识别历史事件,如蒙古帝国、阿拉伯奴隶贸易和欧洲殖民主义的影响,以揭示混合如何塑造了人类人口。

这类研究通常也在国家内部进行。例如,在荷兰,一项研究表明,三个主成分与地理显著相关,将该国分为北部和南部、东部和西部,中间地带明显。较强的南北向PC与全基因组纯合性相关,这反映了与向北迁移相关的创始人效应。我们将在下一节讨论创始人效应,这与数量相对较少的殖民祖先有关。作者将不同地理亚种群之间的这种差异归因于多样化选择的信号(定义见下一节),并将其视为揭示特定进化历史的标志。

然而,图3.2中较宽的主成分分析图仍然显示了沿不同轴的祖先概况。如果个人来自相对同质的背景,迁移或混合有限,则这些类型的指标非常准确。他们对欧洲血统的人尤其准确,因为他们的四位祖父母都来自同一个国家。如果是这样的话,研究人员就能够在几百公里内确定祖先。2019年,对于墨西哥裔美国人这样的混血儿来说,PC结果仍然难以解释,他们的基因组祖先通常来自欧洲、美洲土著和西非人群。

飞哥笔记:古代地理交流很慢,大多数人都是在附近繁衍生活,如果我们有各个省份的数据,可以推断一个陌生的样本来源于哪个省份。在动植物中叫血缘分析或者种源分析。如果再结合历史事件,分析各个时期墓穴中的DNA数据,能够挖掘出更多的信息

作者自述自己的血缘分析

我出生于加拿大,拥有加拿大和荷兰国籍,后者通过居住获得。如果我的四位祖父母都来自英国。图3.3中地图中的比例加起来为1。我们看到,这些数字加起来为0.61,其中大多数(0.29)来自安格利亚(米尔斯家族的一方)和苏格兰(弗莱明家族的一方)。这张地图证实了我的家族从英国祖先诺维奇(祖父)和苏格兰(祖母)移民的口述家族史。同样计算(此处未显示)的还有我明显的荷兰血统(0.16),还有巴尔干、斯堪的纳维亚和俄罗斯血统,加起来等于1。

诺维奇(Anglia)和荷兰的联系可能反映出该地区过去曾与欧洲大陆相连,直到公元前5000年左右,在最后一个冰河期解冻时才分离出来。此后,北海两岸的贸易频繁。英国的这一估计遗漏了母亲的一方,包括一位挪威祖父(和两位挪威曾祖父母)或希腊曾祖父(和两位希腊曾祖父母)。例如,直接面向23andMe等消费类公司。当他们校准算法和样本多样化时,也会不断更新他们的祖先数据。

例如,截至2018年12月,现在可以更准确地捕捉希腊和巴尔干群体。不同的消费者到遗传学公司通常有不同的祖先结果,或者由于他们比较的参考样本和使用的方法,结果会随着时间的推移而变化。23例如,我之前大约有77个?ropean祖先客户【20】。看到基因技术如何应对来自以前所未有的水平迁移和混合的人口的不断增加的混合,将是一件令人着迷的事情。

人类进化、选择和适应

我们在上一章中了解到,我们的基因组包含我们祖先血统的足迹。因此,当代人类群体中的任何基因分析都带有人类过去的痕迹。进化是指在连续几代中,种群可遗传特征的变化。进化不仅构成了我们理解人类物种起源的基础,也构成了我们理解潜在遗传结构和疾病突变的基础。推动进化的力量塑造了种群内以及不同物种间遗传变异的基础。进化发生在数百万年的时间里,关于我们是否能够在当代人口中衡量进化,存在着激烈的争论(见方框3.3)。需要注意的是,环境在形成进化过程中起着关键作用,我们将在接下来的第5章“基因-环境相互作用”中更详细地探讨这一点。

在生物学中,进化被认为是研究一个群体的基因库在世代之间的变化,受突变、自然选择等过程的控制遗传漂变。突变是指基因组实际序列的变化(见第1章方框1.1)。要考虑的相关突变是那些发生在生物体生殖系突变2中的突变,这些突变可以跨代传递给后代。自然选择是特定遗传性状的增加或减少,作为个体差异适应度和繁殖成功的函数。换句话说,当特定的基因变异使携带这些变异的个体更有可能存活时,自然选择就起作用了。因此,这些基因变异在下一代中的频率会增加。据说,自然选择推动适应性进化,以选择对环境中特定群体有益的性状。考虑选择的一种方式是,它是一个过滤器,从群体中移除次优等位基因,以便更好地适应其环境。

适应性进化过程是指选择有益的等位基因,或那些在特定环境中有用的等位基因,从而增加其在群体中的频率。这与减少有害等位基因的频率形成对比。携带一个隐性有害等位基因(有时称为“有害”等位基因)的人不会受到该等位基因的影响,但很容易将其遗传给下一代。如果我们有一个庞大的群体,这通常不是一个问题,因为这个群体携带着许多很少表达的有害等位基因。

它有时也被称为进化适应度,是指物种适应环境的能力。如果一个物种不再繁殖,它们就被认为不再适合进化。这最早是由赫伯特·斯宾塞创造的,但更著名的是查尔斯·达尔文的延伸和工作。相对适合度比较个体与群体中其他个体的适合度,或者换句话说,比较个体对下一代后代的适合度。这反过来又使我们能够确定一个种群可能如何进化。例如,由于身高是高度可遗传的,如果个子高的人有更多的孩子,那么对身高重要的基因在后代中会变得更频繁。在这项研究中,生育力一词也经常被用来指代生育后代的数量、速度或能力。这可能会让跨学科或医学研究人员感到困惑,因为这一术语在医学和人口学中经常被用来表示一年内受孕的生物学能力,并与不孕症有关[29]。达尔文适应度也是一个常用的表达,它指的是平均个体的基因型或表型对基因库对下一代的平均贡献。自然选择只对可遗传的性状起作用。

自然选择的类型

  • A图:图中的面板a显示了该性状的典型正态分布。例如,如果没有身高方面的任何选择压力,这一群体中的人的身高会有所不同,大多数人的身高一
    般,很少有人的身高极短。稳定选择,
  • B图:如图b所示,是指平均(非线性)性状受到青睐的时候。当选择压力选择克服一种特质的两个极端。以身高为例,这意味着非常矮和非常高的人很难竞争,这两种选择压力导致只能选择平均身高的人
  • C图:在c组中,方向选择是指一个极端性状优于其他性状,导致等位基因频率随时间向该表型的方向转移。或者换句话说,特质分布的一个极端经历了与之相反的选择。如图所示,整个群体的特征分布转移到了另一个极端。大多数例子来自其他非人类物种。例如,欧洲的黑熊在间冰期减少,在每个冰期增加。
  • D图:多样性或破坏性选择(图d)指的是遗传变化,在这种变化中,一个性状的极端值比中等或中等值更有利。

物竞天择,适者生存:

频率依赖性选择是指普通性状(正频率依赖性选择)或罕见性状(负频率依赖性选择),并通过自然选择得到青睐。性选择是指由于一种性别对另一种性别的特定特征的偏好而产生的自然选择。中间性选择是具有竞争性的母鸡成员炫耀有吸引力的特征,以吸引配偶的注意,从而增加被选中的机会,并获得更好的繁殖成功。

这可能是身体特征,如身高[28,30],但在人类群体中,也有大量关于分类交配的文献,这些特征代表了更成功的伴侣,如教育水平[31-33]。因此,性选择导致第二性特征的发展,从而有助于最大限度地获得生殖成功。性二态性描述了同一物种的父母投资之间的差异(如身体、认知、行为)。因此,基因在两性之间的表达可能不同,或者换句话说,不同的基因与男性和女性的特征有关(即二态性)。例如,在其他地方,我们研究了在男性和女性生育能力中不同基因位点的性二态性,并发现这些基因可能会遗传给下一代。还有遗传搭便车,称为遗传草稿(不要与遗传漂变混淆)。这是指一个等位基因的频率变化不是因为它处于自然选择状态,而是因为它靠近另一个正在进行选择性扫描的基因(一个等位基因位于同一条DNA链上)。当一个基因经过选择性扫描时,我们现在讨论的连锁不平衡(LD)附近的其他多态性通常会改变其等位基因频率。

遗传漂变

虽然自然选择是进化的一个重要方面,但它不是唯一的机制。进化也可能是偶然发生的,也可能是所谓的遗传漂变。遗传漂移是一种机制,群体的等位基因频率因偶然性而随世代发生变化,通常通过抽样误差进行量化。从当前世代的基因库中为下一代选择等位基因时,由于抽样错误,它被测量为变化。遗传漂变的影响在较小的群体中最强,可能导致一些等位基因的丢失。有益的和有害的等位基因都会受到选择和漂移的影响,但具有强烈漂移的非常小的群体可能会导致有益等位基因的丢失以及有害等位基因的固定或携带。

文献中发现了两种主要的遗传漂变类型:瓶颈效应和创始人效应。

瓶颈效应:

瓶颈效应是遗传漂变的一个极端例子,由于自然灾害等外源因素导致种群数量急剧减少,遗传漂变产生了巨大影响。

这通常归因于地震、洪水和火灾等自然灾害,这些灾害有可能导致整个人口死亡,并留下数量有限的幸存者。由于幸存者的等位基因频率可能与自然灾害之前的人口组成有很大不同,一些等位基因可能根本不存在。这意味着较小的群体更容易受到多代遗传漂变和更多等位基因丢失的影响。这被称为瓶颈效应,因为我们可以用一个瓶子装满代表人口的大理石的类比。自然灾害发生后,以瓶子的小开口为代表,随机一群个体(大理石)通过瓶颈。然后这些形成了新的种群,所有品种中的绝大多数个体(大理石)都留在瓶子里。

在人类中,经常用来描述人口瓶颈的例子是格陵兰因纽特人。Pedersen及其同事于2017年进行的一项研究【35】表明,因纽特人经历了一个严重且长期(约20000年)的瓶颈。结果是迄今为止测试的最极端的等位基因频率分布。这一因纽特人群体携带的有害变异比其他人类群体少,但存在的变异频率比其他人群高。他们认为,这种群体是研究有害变异瓶颈模式影响的理想选择

创始人效应

创始人效应是另一种类型的遗传漂变,即一个小群体从主要群体中分裂出来,建立一个群体。这个新形成的群体是从原来较大的群体中分离出来的,群体的创始人可能是“有选择性的”,因此不能代表原始群体的全部遗传多样性。因此,等位基因频率可能在原始群体和创始人(群体)群体之间有所不同,创始人甚至可能错过一个等位基因选择。一个常见的例子是北美的阿米什人。在宾夕法尼亚州东部,大约200名德国移民组成了一个小型封闭殖民地。该群体通常携带大量基因突变,导致各种罕见的遗传性疾病。一种是埃利斯-凡-克列夫德综合征,它会导致一种侏儒症。因为这些创始人的群体相对较小,他们往往在同一群体中结婚。这些创始人的隐性基因结合在一起并更频繁地出现的可能性更大(见第一章)。另一项针对亲缘关系较高的英国-巴基斯坦成年人的研究发现,罕见的变异纯合子基因型可预测数百个基因中的“敲除”(基因功能缺失)[37]。

种群规模是理解遗传漂变的重要组成部分。我们知道,由于遗传漂变,较大的种群不太可能很快发生变化。因为这是偶然的,所以它有点类似于在一小群耶苏斯人和一大群人中掷硬币的例子。如果你只掷几次硬币(即,人口较少),那么可能会得到一个与你将硬币掷多次(即,人口较多)所得到的50:50的比例截然不同的正面对反面比例。遗传漂变不同于自然选择。尽管自然选择考虑到一个等位基因是有益的还是有害的,但在遗传漂变中,有害的等位基因可能被偶然固定,而有益的等位基因甚至可能丢失。

哈温平衡

哈温平衡的假定

该研究领域的另一个核心概念是哈代-温伯格平衡(HWE),这是一个描述群体中基因型频率概率和分布的理论数学模型。硬件设备的主要目的是在没有进化影响的情况下,群体中的遗传变异量(等位基因和基因型频率)从一代到下一代将保持不变的原则。HWE用于模拟和预测大型稳定群体中的基因型频率。换句话说,当一个群体在HWE中寻找一个基因时,它不会进化,并且等位基因频率在各代之间保持不变。

HWE表明,如果HWE的所有假设都得到满足,基因型的频率和相对比例将保持稳定,或者换句话说,随着时间的推移保持平衡。如果以下五种假设成立,则在这种平衡状态下,比例将保持不变:

哈温平衡的几个前提假定:

  • 没有选择
  • 没有基因漂变
  • 群体保持稳定
  • 没有突变
  • 随机交配

因此,这些假设意味着人口结构不是来自两个或多个亚群体,不存在近亲繁殖(即没有一个或多个共同祖先的交配),男性和女性具有相似的等位基因频率(即更可能在常染色体基因座上),人口的所有成员都具有相同的生殖成功率,人口无限大。

如果某一特定基因不符合基本假设,种群可能会进化。或者换句话说,基因型频率可能会改变。大多数人会立即意识到,这些假设在许多情况下都可能被违反。因此,HWE是一个有用的测试,因为任何偏差都表明轨迹受到非平衡力的影响。这包括突变或自然选择等因素。在实践中。

违反HWE也可能导致遗传数据中的测量错误。因此,测试硬件设备是我们在本书第二部分中描述的处理遗传数据的质量控制过程的关键部分。也许还需要澄清的是,进化并不意味着所有的种群都在朝着一个类似完美的状态前进。

相反,进化意味着一个群体在不同的世代中改变基因组成。这些变化往往很微妙,需要经过几代人的长期努力(见方框3.3)。

哈温平衡的计算

通常用于描述HWE的符号是p2、2pg和g2,以表示三种基因型概率。让我们首先用一个人口没有进化的例子。

这里注意:p=主要等位基因的频率(A),q=次要等位基因(a)的频率,让我们假设等位基因的频率为p=0.3,等位基因的频率为=0.7。因此,哈迪-温伯格方程为:

预测下一代的基因型频率需要做出一些假设。如果我们首先假设没有一种基因型在适应性或寻找配偶方面优于其他基因型,那么我们可以设定配子池(即精子和卵子)中A和A等位基因的频率,从而产生下一代。

第二,如果我们假设没有分类交配(即个体随机交配),那么生殖被认为是来自同一基因库的精子和卵子的两个随机事件选择的结果。回想上一章中的Punnett Square。在实践中,HWE可用于确定可能受隐性有害突变引起的疾病影响的个体的频率。其中一个例子是泰-萨克斯病,它导致精神和身体恶化以及儿童早期死亡。这种突变的频率更高,高达2?德系犹太人。如果该血统的两个人有一个孩子,并且都是疾病突变的同卵型,我们可以使用HWE来确定0.022=0.0004,即0.04%

连锁不平衡和单倍型块

inkage disequilibrium and haplotype blocks

回想第一章,在重组过程中,位于同一染色体上彼此相邻的变体很有可能一起传播。这是因为每个染色体只有一个或两个重组事件。多态性通过所谓的连锁不平衡(LD)一起遗传。

这是2个或多个连锁基因组位点组合在群体成员中的非随机发生。例如,如果通常在一个SNP位点观察到T在另一个SNP位点,这两个SNP被认为是连锁不平衡的。

它们的共生关系比我们在随机(平衡)条件下预期的更为相关。位于同一染色体不同位置的两个等位基因(即多态性变体)如果不是相互独立遗传,则属于LD。一般来说,在同一染色体上靠近的等位基因将具有更强的LD。

为什么会这样?回顾我们在第一章中对遗传重组的讨论,当染色体在减数分裂过程中传递到精子或卵细胞时,两个相邻的SNP一起传递,或者在两者之间发生重组。对于一个很小的片段,重组的概率很低,平均每减数分裂约35次重组。这大约是每100 Mb重组一次,这反过来又会导致连锁SNP随时间的相关遗传,即LD。相反,当两个单核苷酸多态性随机遗传时(即未连锁),则称它们处于平衡状态。因此,高LD意味着两个SNP相连,这是由R2测量的。

这是SNP之间的相关性水平,其中1的完美相关性意味着完全链接的SNP和两个随机SNP的R2=0。有一种方法可以认为这就像是一副纸牌的刷毛,我们经常拿“大块”的牌,而不仅仅是单个的牌。

作为LD的结果,我们经常测量一个标签SNP以预测另一个标签SNP的基因型。这被称为插补,我们将在后面的应用章节中探讨。

实际上,这更困难,因为我们不能总是在R2=1的完美LD中分离出SNP。如前几章所述,这些SNP是我们研究的核心标记或标志[38]。即使单核苷酸多态性标记与性状之间没有直接关联,但如果它与因果遗传变异或LD一起传播,则可能与性状间接相关。因此,我们经常观察到的标记通常是基因组上更多的标记,用于标记可能存在因果遗传变异但可能不是因果变异本身的区域。例如,如果LD为0.9,则很难对因果SNP进行优先排序。在许多情况下,单核苷酸多态性位于LD中,其附近的遗传变异未在特定GWAS阵列中捕获。(我们将在第7章中详细讨论不同的ARRAV。)因此,我们在下一章中讨论的GWA研究也可以检测到这些未观察到的变体,或者整个基因组中的低频率和常见基因变体。

作为LD的结果,我们在人群中观察到单倍型块。当变异等位基因在重组过程中一起传播时,它们更有可能在更大的群体中被发现,并形成所谓的单倍型块。单倍型块是染色体上一组紧密相连的等位基因的一种突变或重组,随着时间的推移,这些等位基因往往在LD中一起遗传【38,39】。这些是作为一组遗传的SNP块。虽然LD在不同人群中大致相似,但单倍型区组各不相同。他们在非洲人口中的时间要短得多,那里的多样性已经存在了很长一段时间。

结论

本章的目的是为读者提供一个关于数百万年来人类从非洲向外扩散的非常简短的纪事,以便了解杂交、迁徙和混合的模式。然后将其与当代数据中发现的当代人口结构和分层联系起来,并使用主成分分析进行检测。我们还阐述了人口结构的常见误称,以及当人口结构和祖先被错误地等同或种族被误解为生物学术语而非社会和政治建构术语时的错误。虽然只是昙花一现,但我们展示了如何使用这些方法来说明基因是如何通过大陆、国家或地区反映地理的。然后,我们转向进化、自然选择和适应度(以及适应度的变化)等基本主题。这些有助于我们理解与生殖成功相关的特定遗传性状的增加或减少。然后,我们将其与遗传漂变形式的瓶颈效应和创始人效应区分开来。还开发了理论数学模型,以测试哈迪-温伯格均衡形式的群体中基因型频率概率和分布的偏差,该均衡遵循五个关键假设(无自然选择、无遗传漂移、无组合交配、封闭群体、无突变)。最后,我们解释了单倍型阻滞,即变异等位基因在重组过程中一起传播,因此更有可能在更大的人群中发现。我们现在转向本书中使用的大多数遗传数据的来源,即全基因组关联

猜你喜欢

转载自blog.csdn.net/yijiaobani/article/details/125570481