课程地址： 复旦大学遗传学

文章目录

八、遗传分析方法

八、遗传分析方法

8.1 模式生物遗传分析策略与方法

如何解决一个感兴趣的遗传学问题？
如何设计基本的研究思路与方法？
如，作物的抗逆性：抗寒、抗旱、抗盐、抗病虫害是由什么遗传机制决定的？应该如何进行研究？

8.1.1 正向遗传学

正向遗传学基本思路：
1. 选择一个合适的科学问题。如，我们关心红色面包霉的物质合成代谢途径。
2. 随机诱变。如，利用射线对红色面包霉进行随机诱变。
3. 表型筛选。观察哪些诱变后的菌株符合目标表型，如不能合成某个氨基酸或维生素等。
4. 基因定位。从突变菌株中鉴定突变基因的染色体位置及突变信息、功能信息等。
正向遗传学 (forward genetics) 指的是通过生物个体或细胞的基因组的自发突变或人工诱变，首先寻找相关的表型或性状改变，然后从这些特定性状变化的个体或细胞中找到对应的突变基因，并揭示其功能的研究方法。从表型到基因型的研究策略
案例：果蝇发育机制的研究——海德堡筛选
1. 随机诱变。用 EMS（甲基磺酸乙酯，烷化剂，引起碱基配对改变）处理果蝇。

2. 突变品系培育。利用杂交和自交得到每个突变品系的杂合子和纯合子。
■ 由于诱变是随机且低剂量的，通常 F0 代果蝇只携带一个拷贝的基因突变，因此要先将突变果蝇 F0 与野生型做单对杂交得到携带相同突变的 F1 代果蝇，F1 代自交后在 F2 代中得到各个突变品系的杂合子和纯合子。

3. 表型筛选。观察 F2 代胚胎发育过程，选择出现胚胎发育异常的个体，观察和分析特定的表型变化。
4. 基因定位与功能分析。对这些基因进行定位，寻找能决定这些胚胎发育事件的基因。
母体效应基因 maternal effect gene
裂隙基因 gap gene
成对规则基因 pair-rule gene
体节极性基因 segment polarity gene
同源异形基因 homeotic gene
正向遗传学方法的优点
1. 没有主观偏向，随机诱变基因组各基因。
2. 在表型筛选中可一次得到大量不同类型的突变体，易于在短时间内克隆大量基因。
正向遗传学方法的缺点
1. 理论上不可能诱变基因组的全部基因。
2. 不可能一次筛选到与性状相关的全部基因。
3. 遗传突变通常是不可逆、不可控的，活性无法按照研究者的愿望进行转换。
4. 哺乳动物等不适合随机诱变。

8.1.2 反向遗传学

反向遗传学基本思路：
1. 选择问题。如，植物叶子的形态。
2. 确定基因。选择和明确想要研究的基因，如通过文献检索，在一些物种中已知某些基因参与了叶子形态的调节，现在研究的物种中有同源基因。或者通过数据库，直接寻找突变体信息。
3. 基因突变或表达。针对目的基因进行定点突变或过量表达，即破坏内源性基因的功能或添加外源性基因的作用。
4. 表型变化分析。观察经过基因操作后，叶子的形态是否发生预期的表型变化。
反向遗传学 (reverse genetics) 指的是在生物个体或细胞内改变某个特定的基因或蛋白质，然后再去寻找有关的表型变化，从而揭示该基因或蛋白质功能的研究方法。从基因型到表型的研究策略
案例：小鼠 fosB 基因功能研究
1. 突变基因。挑选目的基因 fosB，并利用同源重组方法，对 fosB 进行 Knockout。将选择标记插入并替换到 fosB 中，造成插入失活。
2. 突变品系构建。将突变载体导入到小鼠 ES 细胞中，发育成嵌合体小鼠，再经杂交和标记筛选得到突变纯合子小鼠。
3. 表型分析。系统的表型分析发现，突变雌鼠后代存活率很低，进一步行为分析后发现，突变的雌鼠不会哺乳、清洁、招领幼鼠导致幼鼠死亡。
4. 机制分析。追踪研究 fosB 的表达和功能。fosB 的剪接异构体 ΔfosB 能在神经元内表达，是一个重要的 DNA 转录调控因子，参与神经元可塑性、个体行为能力的调节。
反向遗传学方法的优点
针对特定基因或基因家族进行突变，目的性强。理论上在模式生物中所有基因都可以通过反向遗传学研究。正向遗传学方法中不易被诱变的基因可以通过反向遗传学方法进行研究。
反向遗传学方法的缺点
1. 由于对基因功能缺乏了解，表型分析具有一定的盲目性。
2. 通常情况下，任一种突变策略只能制造显性或隐性突变。但这些突变不一定能产生突变的表型。
3. 逐个诱变单基因进行功能筛查的研究成本较高，且数据积累慢。
反向遗传学方法的改进
■ 在很多模式生物中，可以采用先随机诱变获得大规模的突变品系；然后对各个品系中的突变基因进行定位，建立突变体库，并进行生物的保种；再根据需要，逐个进行表型分析。
■ 这种基于大规模建库的反向遗传学改进方法有利于开展合作性研究，也有利于全面地对模式生物的基因组进行功能注释。

8.2 人类单基因性状的基因克隆

人类性状的遗传分析该如何进行？
人类性状决定基因该如何定位和研究？

8.2.1 功能克隆

功能克隆 (functional cloning) 是 80 年代之前使用的疾病基因定位方法。
成功运用功能克隆的案例：白化病、苯丙酮尿症和镰刀形细胞贫血症等。
功能克隆的策略︰从疾病出发，首先收集所要突变蛋白质产物及其功能的信息，然后再对基因进行定位。（类似正向遗传学策略）
案例：镰刀型细胞贫血症
常染色体隐性遗传病，是由 β-珠蛋白编码基因突变导致的。
正常人表达的是野生型基因编码的 HbA 蛋白，隐性纯合患者表达的是突变型基因编码的 HbS 蛋白。两者只有一个碱基改变 GAG>GTG，导致错义突变，谷氨酸 Glu 变成缬氨酸 Val。
镰刀型细胞贫血症的功能克隆
1. 首先分离纯化正常人和病人的血红蛋白，进行氨基酸测序。
2. 据氨基酸序列推测可能的核苷酸序列，合成混合的 DNA 探针。
3. 探针杂交筛选阳性克隆。利用携带人 cDNA 大肠杆菌表达文库进行杂交实验，筛选能与 DNA 探针结合的阳性克隆。
4. 扩大培养阳性克隆，提取其中的 DNA，插入序列测序，从而获得血红蛋白编码基因的信息。
功能克隆的特点
■ 优点是直接，基因和表型之间的功能联系较为明确。
■ 缺点是能够从人体内分离和纯化的蛋白质种类少，实验操作难度大，周期长，适用性非常局限。

8.2.2 定位克隆

定位克隆 (positional cloning) 是 20 世纪 80 年代后期发展起来的基因克隆技术。
定位克隆的策略
先通过遗传连锁分析技术寻找与目的基因紧密连锁的遗传标记，再从候选的染色体区段内分离并克隆目的基因，最后研究基因功能。（类似反向遗传学策略）
案例：囊性纤维化
临床表现：外分泌腺的分泌物粘度增大，阻塞气管，细菌感染后继发囊性纤维化。
白人的突变基因携带率为 3%-10%。
遗传学家很早就开始了囊性纤维化致病基因的功能克隆，但是经过了几十年的研究仍然没有结果。
Tsui Lc, et al. Science, 1985. 利用定位克隆思路，以家系为材料，以连锁分析为方法，实现了囊性纤维化致病基因的定位和基因克隆。
■ 第一步∶利用家系材料和连锁分析，将囊性纤维化致病基因定位到 7 号染色体长臂。
△ 先检测 1 号染色体上的某个遗传标记，发现在家系中存在 2 种等位基因类型：1 型、2 型。在第一个家系中，12 型杂合子双亲，其中两个患者基因型分别为 11、22，基因型与疾病之间没有连锁趋势。第二个家系中，双亲杂合子，3 个患者基因型分别为 11、12、22，也没有规律，没有连锁关系。因此，可以排除 1 号染色体上这个遗传标记与囊性纤维化基因之间存在连锁的可能。
△ 以此类推，直到分析到 7 号染色体上的 D7S15 这个遗传标记时发现了确切的连锁信号。两个家系中患者基因型都是 11 型，提示 7 号染色体上 D7S15 这个遗传标记的特定类型（1 型）总是跟随囊性纤维化基因一起传递给后代，两者之间存在连锁关系。之后，进一步确定囊性纤维化基因在染色体上的大致位置是 7q21-7q31。
■ 第二步：利用更多家系和密度更高的遗传标记进行连锁分析。将囊性纤维化致病基因定位到范围 7q31 区域，位于 MET 和 D7S8 两个遗传标记之间，长度约 1.6Mb。Tsui LC, et al. Am J Hum Genet.,1986.
■ 第三步：候选区域有 4 个蛋白质编码基因，利用 Northern 杂交分别检测了这四个基因的转录产物在不同组织器官中的表达谱，排除了三个基因。结果发现，有且只有一个基因的表达谱与囊性纤维化患者受累器官高度一致，在胰腺、鼻息肉、肺组织中高表达，结肠、汗腺、肝脏中也有一定的表达。据此推断，此基因很可能为候选基因。Riordan JR, et al. Science, 1989
■ 进一步克隆这个基因进行功能域分析发现，囊性纤维化致病基因 CFTR 编码跨膜蛋白，负责物质运输。
■ 对比患者和正常人的 CFTR 基因发现，CFTR 的常见突变类型是 508 位 3 个碱基缺失导致的苯丙氨酸丢失，导致蛋白质的转运功能缺陷。除了 508 位苯丙氨酸丢失，CFTR 还存在其他错义突变、无义突变、移码突变、剪接位点突变等。
定位克隆的技术路线
1. 家系分析：收集大量家系材料。
2. 染色体定位：利用覆盖度尽可能的广的遗传标记对疾病基因做初步定位，锁定染色体编号和大致位置。
3. 精细定位：在候选区域使用高密度的遗传标记进行精细定位，缩小候选区域范围。
4. 候选基因筛选：在最终的候选区域中寻找功能基因，并根据功能进行筛选，确定基因。
5. 基因测序：利用家系中的患者和正常个体进行靶基因测序，寻找关键的基因突变。
定位克隆在 1995 年后几乎完全替代了功能克隆。1995 年左右，由于人类基因组计划完成了详细的遗传图谱和物理图谱，大量的人类孟德尔疾病得以实现基因定位。

8.3 人类复杂性状的易感基因筛选

复杂疾病的特点：
非孟德尔遗传
环境因素的影响大
群体发病率高，异质性强
也称为常见疾病 Common diseases，如糖尿病、高血压、心脏病等，有遗传倾向，患者亲属的发病率高于群体发病率。
影响复杂性状/疾病的等位基因被称为易感基因 (susceptibility genes)。作用微小，单独作用时不能导致疾病发生，但能赋予疾病易感性。
关联分析是复杂疾病易感基因的重要筛选方法。

8.3.1 关联分析的原理

生物学关联分析 (association analysis) 指的是评判某等位基因/因素是否伴随着某性状共同出现的分析手段。
关联分析是基于群体数据的统计学分析，根据显著性程度来判断有无关联。
因此，关联并非遗传学现象，关联是等位基因类型与性状表型是否共发生的一种统计学描述。
例如︰英国人群中 HLA-DR4 等位基因与风湿性关节炎存在关联。
普通人群中 HLA-DR4 等位基因频率 36%，风湿性关节炎群体中 HLA-DR4 等位基因频率达到 78%，统计学计算差异显著，提示 HLA-DR4 等位基因倾向于与风湿性关节炎共同发生，因此描述为，英国人群中 HLA-DR4 等位基因与风湿性关节炎存在关联。
关联的原因：
（1） 统计学本身可能存在分析错误。
（2）生物学原因：
■ 直接原因。某个基因恰好是该疾病的易感基因。（但基因组庞大，概率低）
■ 祖先基因突变和自然选择。患有复杂疾病的群体的祖先可能恰好携带了某个突变基因，且该突变基因在自然选择过程中被保留下来。
■ 群体分层。某种疾病与某个等位基因常见于某个人群的亚群中。
■ 连锁不平衡是复杂疾病关联分析的真正目标，即寻找与疾病基因之间存在连锁不平衡的遗传标记。
连锁不平衡 (linkage disequilibrium, LD)，又称等位基因关联 (allelic association)，是指基因组中不同等位基因位点间存在的非随机关联现象。
等位基因 A、a；B、b
基因型 AB, ab, Ab 和 aB
如果无 LD，则 pAB = pA × pB
当|D|=|pAB - pA × pB| > 0，两个基因之间存在连锁不平衡。
连锁不平衡的存在是进行基因型与表型之间的关联分析的基本条件。
连锁不平衡的原因
■ 连锁不平衡受到连锁的影响。如果某个遗传标记与待定基因间距离较远，它们在向子代传递时就容易发生自由分离，即连锁平衡。反之，距离较近，就不容易发生自由分离，呈现共分离现象，即连锁不平衡。
■ 但连锁不平衡是基于群体的分析。可能是拥有共同祖先的群体，随着世代的传递，可以把与疾病易感基因之间相距较远的遗传标记交换出去，反复重组的结果是，后代共享的染色体片段被缩小至很小的部分，只有与易感基因紧密连锁的基因才可以共享。
■ 因此，祖先的疾病易感基因可与其周围连锁程度较高的等位基因之间出现群体水平的统计学关联，即连锁不平衡。
■ 除了连锁，连锁不平衡还受到突变、漂变、混合、以及其他一系列复杂的群体历史因素和一些随机因素的影响。

8.3.2 关联分析的方法

常见疾病常见变异假说：常见疾病的易患性和抗药性是由于人群中某些位点的常见变异引起的，其中编码区和调控区的 SNP 对疾病尤为重要。
SNP 是人群遗传差异的重要来源。基于 SNP 和疾病的关联分析可以有效筛选复杂疾病易感基因。
关联分析的一般实验流程：
1. 选择感兴趣的研究群体。一方面，进行流行病学问卷调查和数据整理；另一方面，收集外周血，提取 DNA，挑选待分析的 SNP，并进行 SNP 分型。
2. 利用统计学分析进行遗传易感性疾病风险预测。
3. 为了防止假阳性，一般还需要独立人群的验证。
常用的关联分析的方法：
1. 病例对照研究 (case control study) 直接比较患者群体和正常群体两组群体中某遗传标记等位基因型频率，通过统计分析是否具有显著的差异。这种方法易于获得大量群体样本，能够有效进行基因分析，易于操作，且有较高的检出效应。但是，由于混杂因素过多，容易造成虚假联系，需要选择严格的对照组和严格的统计分析方法。

2. 队列研究 (cohort study) 将人群按照遗传标记频率/是否暴露于某环境因素进行分组，追踪各组疾病发生的情况，通过比较不同组之间的差异分析遗传标记/暴露因素与疾病的关联程度的一种前瞻性的研究。队列研究是一项时序性研究，关联的可信度更高，但研究时间长，耗费较高。

3. 回顾性研究 (Retrospective study) 回顾性研究的对象是根据其在过去某个时间点的特征或者暴露情况而入选并分组，然后从已有的记录中追溯从那时开始到其后某一个时间点或直到研究当时为止这一段时间内，研究对象的情况。回顾性研究相当于从过去某个时间点开始的前瞻性研究的随访，但实际上是在调查过去的既定事实，是一种从果推因的过程。
■ 以上 3 种方法操作不同，对样本的要求不同，结果的可信度也不相同。实际应用中，需要根据样本的实际情况和研究目标来选择合适的研究方法。

8.3.3 关联分析的应用

基于候选基因的关联分析

候选基因来自家系连锁分析的候选基因，或是在其他实验中提示的易感基因等。对这些特定基因进行群体内的基因分型和关联分析，可以比较快捷的筛选到复杂疾病的易感因素。
但基于候选基因的关联分析也带有一定的盲目性和局限性。

全基因组关联分析 GWAS

对群体进行全基因组测序和扫描，测定可能的疾病关联基因变异和单核苷酸多态性。
GWAS 研究成果
第一项标志性 GWAS 成果是年龄相关性黄斑变性的易感因素筛选。1 号染色体的 CFH 基因内含子的一个多态位点与疾病存在显著关联。
目前，GWAS 已经在糖尿病、多种肿瘤、精神性疾病等多种复杂疾病的研究中取得重要成果。
GWAS 的局限性
GWAS 所应用的统计学方法还不够成熟，需要大样本，多人群的独立重复验证才能找到真正连锁不平衡的遗传标记。
GWAS 往往不能直接发现致病的遗传变异，而只是找到了和易感因素存在连锁不平衡的遗传标记。真正的易感因素需要借助其他手段来进一步明确和阐明。
GWAS 的理论前提是常见疾病常见变异假说。但不是所有复杂疾病的遗传机制都符合“常见疾病，常见变异”这条规律。目前的 GWAS 研究仅仅解释了高频变异在复杂疾病中的潜在作用，中低频的变异没有被研究，其他特殊疾病类型也缺少合适的研究方法。
连锁分析和关联分析的联系
(1) 区别
■ 连锁是基因座之间的遗传学关系：而关联是等位基因型和表型之间的统计学联系。
■ 连锁分析通常用于罕见突变引起的单基因遗传病的基因定位，需要丰富的家系材料；而关联分析适用于复杂疾病的易感基因筛选，需要大量的群体样本。
(2) 联系
群体中的关联现象很可能是遥远的共同祖先的某个等位基因类型和突变的疾病基因之间的连锁造成的。但是，随着世代的传递，只有遗传距离足够小的位点之间的连锁不平衡关系才能在群体中保存下来。

【听课笔记】复旦大学遗传学_08遗传分析方法

文章目录

八、遗传分析方法

8.1 模式生物遗传分析策略与方法

8.1.1 正向遗传学

8.1.2 反向遗传学

8.2 人类单基因性状的基因克隆

8.2.1 功能克隆

8.2.2 定位克隆

8.3 人类复杂性状的易感基因筛选

8.3.1 关联分析的原理

8.3.2 关联分析的方法

8.3.3 关联分析的应用

猜你喜欢