【听课笔记】复旦大学遗传学_06基因组

课程地址复旦大学遗传学


六、基因组

6.1 基因组概论

6.1.1 基因组概念、分类与性质

  • 基因组 (genome) 指的是细胞内全套染色体及其所携带的全部基因,包括基因序列和基因间序列。

  • 基因组学 (genomics) 是一门对某一物种的所有基因进行基因组作图、核苷酸序列测定和基因功能分析的分支学科。

  • 基因组的分类
    ■ 从物种角度进行分类,可分为病毒基因组、原核生物基因组和真核生物基因组。
    真核细胞基因组:核基因组、线粒体基因组、叶绿体基因组
    原核细胞基因组:类核、质粒
    病毒基因组:DNA 病毒基因组、RNA 病毒基因组

  • C 值 (C Value) 是指在每一种生物中其单倍体基因组的 DNA 总量。每种生物都有其特定的 C 值,它反映了基因组的特异性与差异性。在这里插入图片描述

  • 如图,两栖类、鱼类、植物、原生动物 C 值较大,细菌 C 值较小,但同一个纲目,不同的种、属的生物的 C 值差别非常大,哺乳动物 C 值和爬行类、软体动物是相近的。

  • 生物的 C 值并不与生物复杂程度(或进化上所处地位)相关的现象称作 C 值悖论 (C Value paradox)。

  • 基因组中全部基因的数目与物种的复杂程度同样没有明显的相关性这被称为 G 值悖论G Value paradox)。例如,拟南芥的基因数是果蝇的近两倍。

6.1.2 基因组的结构与功能特点

(1)病毒基因组

  • 乙型肝炎病毒 (Hepatitis B virus, HBV) 基因组为例

  • HBV 基因组为不完全双链 DNA 分子,大小为 3.2kb。

  • HBV 含有 4 个基因,分别编码衣壳蛋白 S、DNA 多聚酶 P、核心蛋白 C、未知功能蛋白 X。
    在这里插入图片描述

  • HBV 最显著的特点就是基因重叠,例如,S 基因完全重叠于 P 基因,X 与 C、P,C 与 P 之间都有重叠。

  • 病毒基因组的特点

    1. 基因组大小从几 kb 到几百 kb 不等。
    2. 基因组的结构形式多样。
    3. 通过多种方法在较小的基因组容量内提高携带遗传信息的效率,比如基因组内非编码序列所占的比例极少,含有大量的重叠基因
    4. 基因组内存在操纵子结构。功能相关的基因聚集分布,在同一个调节区域的调控下一起转录。

(2)原核生物基因组

  • 大肠杆菌 (Escherichia coli) K-12 菌株为例
  • 闭合环状双链 DNA,大小为 4.6Mb。
  • 87.8% 的序列是蛋白质编码基因,编码 4288 个蛋白,主要是代谢和合成酶类以及结构组成蛋白。
  • 0.8% 负责编码 RNA 产物,0.7% 是非编码重复序列,余下 10.7% 的序列负责基因表达调控和其他未知功能。
  • 两条 DNA 链都能作为模板进行基因转录,基因间间隔的平均大小仅为 118bp。
  • 原核细胞基因组的特点
    1. 闭合的环状双链 DNA 分子,包括类核与质粒。但质粒是染色体外 DNA , 不是细菌存活所必需的。
    2. 多数基因是单拷贝基因。两条 DNA 链都可编码基因,非编码序列的比例很低。重叠基因的比例显著减少
    3. 含有少量重复序列,也含有一些特殊的 DNA 结构元件,如复制起始区、转录终止子等。
    4. 基因的组织顺序和染色体复制方向有关,存在大量操纵子结构,功能相关的基因通常一起转录。

(3)线粒体基因组

  • 真核生物细胞内的线粒体和叶绿体都含有独特的细胞器 DNA,它们同样是维持真核细胞生存必不可少的条件,是基因组的重要组成部分。
  • 智人 (Homo Sapiens) 线粒体为例,线粒体基因组图谱如图,在全长 16569bp 的序列中,编码与呼吸链相关的 13 个蛋白质分子、22 个 tRNA 分子和 2 个 rRNA 分子,基因的组织效率非常高,基因间的非编码序列非常少,没有内含子,且存在重叠基因现象。
    在这里插入图片描述
  • 线粒体基因组的特点
    1. 裸露的环形 DNA 分子。除了少数低等真核生物线粒体基因组为线性外,大多数生物的线粒体基因组和人一样,都是裸露的环形 DNA 分子。
    2. 主要编码少量 rRNA、tRNA 和部分呼吸链组分蛋白质等。线粒体的结构和生命活动都需要核基因组的参与和调控。
    3. 线粒体基因组大小和生物的复杂程度无关
    4. 线粒体 DNA 是多拷贝的,在胞质分裂的过程中不同的线粒体 DNA 随机分配给子细胞。

(4)叶绿体基因组

  • 以第一个完成全基因组测序的烟草叶绿体为例![在这里插入图片描述](https://img-blog.csdnimg.cn/19437a2bb62b41f68551dd0665d004d4.png#pic_center =x350)

  • 叶绿体基因组的特点

    1. 闭合环状 DNA,有多个拷贝,且拷贝数可变。
    2. 基因组大小比线粒体大,多数为几百 kb 大小。
    3. 编码的基因数较多,包括 tRNA 基因、rNA 基因、RNA 聚合酶基因、核糖体蛋白编码基因、光合作用相关蛋白组分的编码基因等,且含有大量内含子序列。烟草叶绿体大约含有 150 个基因。
    4. 含有两段数十 kb 大小的反向重复区(IR 区,将环状 DNA 分子分隔成大单拷贝 (LSC 区小单拷贝区 (SSC 区

(5)真核细胞基因组

  • 第一个完成全基因组测序的单细胞真核生物是酿酒酵母(1996 年)
    全长 12,068kb,共 16 组染色体。
    5885 个蛋白质编码基因和约 455 个 RNA 基因。
    遗传冗余 (genetic redundancy) 是真核基因组区别于原核基因组的显著特征。包括非编码的重复序列和多拷贝基因。
  • 第一个完成全基因组测序的多细胞真核生物是秀丽隐杆线虫(1998 年)
    全基因组 97Mb,6 对染色体,19,099 个基因,其中 40% 的基因产物与其他物种存在同源关系。
    遗传冗余,存在大量重复序列,且基因在染色体上的密度低
    编码大量独特的细胞间信号转导蛋白,这是多细胞生物基因组的一大特点。
  • 另外几种模式真核生物的基因组测序
    2000 年 黑腹果蝇 120Mb、拟南芥 125Mb
    2002 年 小鼠 2.5Gb
    至 2010 年 8 月,全球已发表 1350 个物种的全基因组序列。包括 90 种古细菌、1127 种细菌和 133 种真核生物

6.2 人类基因组计划

人类基因组计划的进程

  • HGP 启动
    人类基因组的四张图(遗传图谱、物理图谱、基因图谱、序列图谱)。
    六种模式生物基因组的测序(大肠杆菌、酵母、线虫。果蝇、拟南芥和小鼠)。
    在这里插入图片描述
    最先开始的是模式生物的全基因组测序,从简单的大肠杆菌开始,然后是酵母、线虫、果蝇、拟南芥
    小鼠和人的基因组非常大,因此采用不同的测序手段,先进行遗传图谱和物理图谱的构建,然后是 cDNA 测序,最后才是基因组测序

  • 中国对 HGP 的贡献
    1999 年 7 月,承担 3 号染色体短臂 D3S3610 至端粒的区域的测序工作。2000 年春完成任务。工作量约 30Mb,占人类基因组测序计划的 1%。

人类基因组计划的成果

  • 人类基因组草图
    2000 年 6 月,人类基因组工作框架图 (working draft) 提前完成。覆盖基因组 90% 以上的序列,错误率约 1%。

  • 人类基因组精图
    2003 年 4 月,国际人类基因组计划合作组织的完成了人类基因组更高质量的精图绘制。覆盖基因组 99% 以上的序列,仅存在 341 处空隙,错误率在 0.001%。
    2004 年 10 月,国际人类基因组计划合作组织公布人类基因组的近完成序列 (near-finished sequence)。

  • 收录人类基因组数据的数据库
    NCBI 的 Genebank
    UCSC 的 Genome Browser
    Ensembl 的 Genome Browser
    DDBJ
    EBI 的 EMBL-bank

后基因组时代的工作

  • DNA 元件的百科全书计划——ENCODE
    ■ 全基因组测序完成后发现,全基因组中仅有不到 2% 的序列是编码蛋白质的,为了研究剩下 98% 的序列的功能,2003 年 9 月启动 ENCODE 计划,旨在找出人类基因组序列中所有功能元件,形成一个完整的人类基因组的“元件目录” www.encodeproject.org

    主要技术方法

    1. 染色质构象捕捉、配对末端标签测序分析、染色质相互作用技术,分析存在 DNA-DNA 相互作用的关键位点
    2. DNase 测序、甲醛交联测序、染色质免疫沉淀测序、全基因组甲基化测序,进行 DNA 调控原件的分析,包括转录位点、DNA 修饰位点、组蛋白修饰位点的鉴定
    3. 生物信息学预测、反转录 PCR、RNA 测序、紫外交联免疫沉淀结合高通量测序,分析潜在的 RNA 转录产物 在这里插入图片描述

    ENCODE 的关键发现:重新认识基因组的组成和调节生命活动的方式
    76% 的基因组序列有转录产物,这其中仅有 1.5% 是能翻译成多肽的 mRNA
    42% 的基因组序列可以与蛋白质结合
    390 万个转录结合位点
    20687 个蛋白编码基因
    11224 个假基因
    18400 个 RNA 基因
    ■ 重要提示:
    RNA 同样是基因组重要的功能产物
    大量的非编码序列直接参与基因的表达调控

  • 国际单倍型图谱计划——HapMap
    旨在通过大人群样本的测序和比对,发现个体研究时被掩盖的遗传差异信息
    2002 年 10 月~2005 年 10 月,完成 269 个人的样本,900 万个 SNP 的分型和图谱绘制,构建了人类 DNA 序列中多态位点的常见遗传模式
    The International HapMap Consortium. Nature 2005.

  • 千人基因组计划
    2008 年 1 月启动,全球 27 个族群的 2500 个人的全部基因组信息,绘制更精细的人群遗传差异图谱,重点是检查人群中的遗传变异,包括拷贝数变异、SNP、缺失和重复及其他结构变异等,旨在建成开放、公共的人类基因组参照数据库,为性状、疾病的遗传分析提供更加详尽的基因数据,为个性化的医疗提供遗传信息的参照
    1000 Genomes Project Consortium, et al. Nature 2012.

  • 基因组研究的伦理
    基因歧视、不严谨的遗传检测、遗传信息泄露等问题
    2003 年,联合国教科文组织第 32 届大会通过了《国际人类基因数据宣言》
    宣言的目的是保证在收集、处理、使用和储存人类遗传数据及产生它们的生物学样本的时候尊重人类尊严、保护人权、自由、平等、公正等。

6.3 人类(核)基因组的组成

6.3.1 人类基因组概况

  • 23 对染色体,3.2Gb 序列

  • GC 含量偏低,仅占 38%,且不同染色体的不同区段上 GC 含量亦不相同。

  • 20687 个蛋白质编码基因,平均含有 9 个外显子,长度 27kb,但不同基因间的差异极大。且基因的总长、外显子的大小均和基因产物的大小之间没有必然联系。

  • 基因在染色体上不均匀分布。19 号染色体上的基因含量最丰富,13 号染色体最少。

  • 人类基因组中罕见重叠基因多顺反子转录单位。

  • 除去编码基因,非编码序列占人类基因组的 98.5%,远远高于其他任何一种生物。
    在这里插入图片描述

  • 人类基因组的组分
    在这里插入图片描述
    ■ 基因组可分为重复序列单一序列,各 50%
    ■ 单一序列中基因序列约占 22%,其中只有 1.5% 是蛋白质编码序列,其余是内含子序列
    ■ 重复序列中转座序列约占 43%,包括 21% LINEs(长散在重复元件)、13% SINEs(短散在重复元件)、8% 反转录病毒类似元件、3% DNA 转座子化石以及简单串联重复序列大片段基因组倍增

6.3.2 人类基因组中的基因及基因相关序列

  • 根据 2001 年的基因组数据分析,在已发现的 2 万多基因中,42%是未知功能基因

  • 此外,在全部蛋白质编码基因的产物中
    酶 10.28%
    核酸酶 7.5%
    信号传导 12.2%
    转录因子 6.0%
    信号分子 1.2%
    受体分子 5.3%
    选择性调节分子 3.2%

  • 基因组中一些基因的功能相近甚至相同,根据基因序列、功能的相似性可以对一些基因进行分类,包括基因家族基因超家族

  • 一些基因家族中除了功能相近的编码基因外,还伴随着由于突变丧失编码功能假基因或基因片段。

  • 大多数功能相近/相同的基因散在分布在不同的染色体上,但也有一些基因成簇分布在染色体的某一位置形成基因簇

  • 基因座 (locus) 是指基因在染色体上所处的位置。每个特定的基因在染色体上都有其特定的座位。

  • 基因簇 (gene cluster):一些基因序列和功能高度一致的基因分布在染色体的相同位置紧密连锁,构成基因簇 。如,人的组蛋白编码基因在多条染色体上都有分布,其中 6 号染色体短臂上存在 2 个典型的基因簇;其他类似的基因还包括核糖体 RNA 基因等。
    在这里插入图片描述

  • 基因家族 (gene family):人类基因组中的一些基因,它们的全部或部分序列高度同源,能够编码保守的蛋白质结构域或者氨基酸基序,这些基因构成了一个基因家族。
    ■ 基因家族的成员在进化上具有共同祖先,功能相似或相近。
    ■ 基因家族的成员有的以基因簇的方式存在,如,珠蛋白基因家族;有的散在分布,醛缩酶基因家族。
    ■ 例:成人血红蛋白是由α-珠蛋白和β-珠蛋白构成的四聚体。α-珠蛋白编码基因分布在 16 号染色体上,是一个基因簇结构;β-珠蛋白分布在 11 号染色体上,也是一个基因簇结构。每个基因簇中有多个珠蛋白编码基因,序列高度同源,产物可以分别组装成胚胎时期、胎儿时期和成人时期不同的血红蛋白。
    在这里插入图片描述

  • 基因组中还有一些基因,它们之间的序列同源性低,基因产物没有保守的蛋白质功能域或者氨基酸基序,但是功能相关,且具有相同的特征结构,这类基因的进化亲缘关系较远,构成基因超家族 (gene superfamily)。
    ■ 如,免疫球蛋白超家族,基因序列之间的同源性很低,但基因产物都与免疫应答有关,且具有和免疫球蛋白相似的结构特征。
    在这里插入图片描述

  • 假基因 (pseudogene) 又称拟基因,指的是与基因组中有功能的基因具有相似的序列,但失去蛋白质编码功能或者不能正常转录表达的 DNA 序列。
    ■ 在真核生物中有相当数量的假基因存在。人基因组中约 10% 的基因有拷贝数不同的假基因,全部假基因及基因片段约 11224 个。
    ■ 假基因根据产生方式的不同可以分为常规假基因(非加工假基因)和加工假基因(反转录假基因)。
    常规假基因 (classical/conventional pseudogene) 是在基因组进化过程中功能基因复制后发生突变产生的失活产物。
    如,珠蛋白基因簇中 α2 基因是胎儿和成人时期正常表达的 α-珠蛋白基因,但 ψα1 假基因与之相比,在启动子区域出现了多个碱基的缺失,起始密码子也发生点突变,编码序列中还有不同的剪接位点突变和缺失等,因此不能正常转录表达。
    在这里插入图片描述
    加工假基因 (processed pseudogene):功能基因的 mRNA 转录产物反转录为 cDNA 后再次插入基因组,形成一个新的基因拷贝,即加工假基因,又被称为反转座假基因 (retropseudogene) 。典型的加工假基因包括一些 rRNA、tRNA 假基因,基因组中的散在重复序列 AluLINE1丰度最高的两种加工假基因。
    如,某个蛋白质编码基因含有启动子 P,外显子 E1、E2、E3,对应的 mRNA 序列仅保留 E1、E2、E3 并增加 polyA 尾,然后反转录成 cDNA,插入到基因组的某个位置,并通过 DNA 修复形成新的拷贝,新拷贝和原来的编码基因相比,不含启动子序列和内含子,保留了 polyA 和 polyT 尾,没有启动子,因此不能正常转录和表达,成为假基因。
    在这里插入图片描述

6.3.3 人类基因组中的非编码 RNA

  • 非编码 RNA (non-coding RNA, ncRNA) 指的是不具有蛋白质编码功能的 RNA。
  • 人类基因组中已发现 18400 个 ncRNA 基因。
  • ncRNA 的编码基因有的位于蛋白质编码基因的内部(如内含子),有的位于蛋白质编码基因的相关序列(如假基因),还有的位于基因间的非编码序列
  • ncRNA 分类
    rRNA,参与核糖体组装
    tRNA,参与氨基酸转运
    snRNA (small nuclear RNA) 小核 RNA,参与内含子剪接
    snoRNA (small nucleolar RNA) 小核仁 RNA,参与 rRNA 加工
    miRNA (microRNA) 微小 RNA 和 siRNA (small interfering RNA) 小干扰 RNA,参与基因表达的转录后调控
    piRNA (piwi-interacting RNA) 参与转座调控,精子发生等。
    lncRNA (long ncRNA) 200nt 以上,参与转录及翻译后调控,表观遗传修饰等。

6.3.4 人类基因组中的基因外 DNA

  • 人类基因组中基因与基因相关序列仅占 25% 左右,剩余 75% 属于基因外 DNA (extragenic DNA)。其中 50% 是重复序列
  • 重复序列 (repeated sequences),是指基因组中重复出现的序列。人类基因组中重复序列的比例高于单一序列。
  • 按照重复程度的不同可以将重复序列分为低度重复序列(2-10 拷贝)、中度重复序列(10-105 拷贝)和高度重复序列(106 拷贝)。
  • 按照重复序列在染色体上的分布可以分为串联重复序列(串联分布在染色体的相同位置,如各类卫星 DNA)和散在重复序列(分散在不同染色体的不同位置,如各类转座序列)。

串联重复序列

  • 串联重复序列 主要是一些卫星 DNA,有特定的核心重复序列,头尾相连,串联分布在染色体的特定位置上,拷贝数可以从几十到上万。

  • 密度梯度离心分离基因组 DNA 时,含有串联重复的 DNA 片段会形成一些 “卫星”带,因而得名卫星 DNA。因为主带的 DNA 片段多是单拷贝序列,GC 含量与人基因组的平均值相等,而卫星 DNA 含大量重复序列,GC 含量和浮力密度有别于整个基因组的平均水平在这里插入图片描述

  • 卫星 DNA 根据其重复片段的大小分为:大卫星 DNA、卫星 DNA、小卫星 DNA、微卫星 DNA。但不是所有的卫星 DNA 都是通过密度梯度离心分离出来的。

  • 卫星 DNA 的分布
    卫星 DNA 通常出现在染色体着丝粒。核心重复序列为 171bp 的 alpha 卫星 DNA 是唯一一个分布于全部染色体着丝粒的卫星 DNA,是着丝粒蛋白和 DNA 的重要识别位点,可能介导了着丝粒的行为调控。
    小卫星 DNA 一般位于端粒附近位置,端粒 DNA 本身也属于一种小卫星 DNA,核心重复序列是 TTAGGG,它和端粒酶在 DNA 复制中的重要作用已经明确,端粒缺失是细胞衰老的重要特征之一。卫星 DNA 和小卫星 DNA 构成了染色质中包装程度较高的异染色质区域。
    微卫星 DNA散在分布于各条染色体上,且它的重复拷贝数在人群中可变度高(多态性),因此是合适的遗传标记

散在重复序列

  • 人类基因组基因外的散在重复序列主要是转座元件 (transposable elements)。

  • 转座序列包括两大类:以 RNA 为中介的反转录转座序列DNA 转座子化石(以 DNA 进行转座的转座序列,但在人类基因组中完全丧失了转座活性)。

  • 以 RNA 为中介的反转录转座序列真核生物基因组的特有的组成部分。人类基因组中的反转录转座序列包括:
    (1)长散在重复序列,又称长散在核序列 (long interspersed nuclear element, LINE)
    △ LINEs 较长,一般内部含有 1 个 RNA 聚合酶 Ⅱ 所识别的启动子序列,2 个开放阅读框
    △ LINEs 发生转座时,反转录产物通常具有不完整的 5’端,得到许多截断突变体并插入到基因组中,平均大小仅 1kb 左右。
    △ 人类基因组含有三个 LINEs 家族,即 LINE1有转座活性)、LINE2LINE3(无转座活性)。
    LINE1 两侧有正向重复序列,内部 2 个开放阅读框 ORF,编码蛋白内部含有反转录酶结构域内切酶结构域,因此能够介导转座。LINE1 在基因组中有 8×105 拷贝,但仅有 1% 左右是全长,具有转录活性,但多数截断的 L1 可以在全长 L1 的产物的协助下进行转座。
    在这里插入图片描述
    (2)短散在重复序列,又称短散在核序列 (short interspersed nuclear element, SINE)
    △ SINEs 较短,100-400bp,内部含有 1 个 RNA 聚合酶 Ⅲ 识别的启动子序列,不能编码蛋白质,因此,SINEs 的转座依赖于有转座活性的 LINE1
    △ 人类基因组含有三个 SINEs 家族,即 Alu有转座活性),MIRTher2/MIR3无转座活性)。
    Alu 来源于 7SL RNA 基因(信号识别蛋白 SRP 的组分之一),是它的加工后假基因,由 7SL RNA 基因反转录转座产生。在人类基因组中有 106 拷贝。
    在这里插入图片描述
    ■ (3)具有长末端重复序列的 LTR 元件,又称反转录病毒类似元件 (retrovirus-like element)
    长末端重复序列 (long terminal repeat, LTR) 指的是在反转录病毒的 RNA 基因组反转录成 DNA 的过程中,在 DNA 双链的两端加上的正向重复序列,组成是 U3-R-U5,这段序列是病毒整合到宿主基因组中所必需的。
    人类基因组中的 LTR 元件指的是两侧携带 LTR 的转座元件,和反转录病毒的同源性极高,但由于内部存在缺陷,极少能发生转座。在哺乳动物基因组中,仅有 vertebrate-specific endogenous retroviruses (ERVs) 具有一定的转座活性。

  • DNA 转座子化石
    ■ DNA 转座子化石的结构类似原核细胞中的转座序列,两端含有反向重复序列,内部编码转座酶
    ■ 人类基因组中含有 7 个 DNA 转座子家族,根据内部是否含有转座酶编码序列可以分为自主转座非自主转座两类。

  • 大片段基因组倍增 (segmental duplications, SDs) 也称为低拷贝重复 (low-copy repeats)。SDs 占人类基因组的 ~5%
    SDs 指的是一段 1 ~ 200kb 的基因组大片段从基因组中某个特定位置转移到另一个或多个位置形成多个拷贝的现象。
    ■ SDs 的不同拷贝之间序列相似度高,达到 90% 以上,易造成染色体的同源重组


6.4 基因组作图与测序方法

  • 人类基因组测序策略
    在这里插入图片描述
    公共测序领域最先启动的是遗传图谱和物理图谱的绘制,然后是 cDNA 测序和 DNA 测序,即作图、测序和拼装的三步测序方案。
    在这里插入图片描述

6.4.1 基因组作图方法

人类基因组的遗传图谱

  • 遗传图谱是根据重组率的数值,将遗传标记标定在染色体上的图谱。
    详见:【听课笔记】复旦大学遗传学_04 连锁与交换
  • 利用三代遗传标记(RFLP、STR、SNP)和一些已知基因作为标记绘制遗传图谱
    1994 年 9 月第一个人类基因组计划成果——高密度全基因组遗传图谱,包含 3617 STRs + 427 基因,0.7 cM 分辨率
  • 遗传作图得到的遗传图谱的分辨率精确度都存在局限性。0.7 cM 分辨率相当于 70 万个碱基的序列上才有一个标记;同时,遗传距离反映的是重组率的大小,而非真实的物理距离,由于重组热点的存在,这个遗传距离可能会出现偏差。
  • 如下图所示,人类 X 染色体的遗传图谱和物理图谱,同样的遗传标记在两张图谱上的位置关系是相近但却相互不同的,因此,为了提高基因组图谱的分辨率和精确度,遗传学家在遗传图谱的基础上开发并绘制了物理图谱。
    在这里插入图片描述

物理作图

  • 物理作图指的是采用分子生物学技术直接将 DNA 分子标记、基因或克隆标定在基因组实际位置的作图方法。

  • 用物理作图方法绘制的图谱即物理图谱 (physicalmap)。物理图反映的是目标 DNA 分子在染色体上的真实位置,常用 bp 计算标记之间的距离。

  • 物理作图方法:限制性酶切作图、荧光原位杂交作图、序列标签作图、依靠克隆的物理作图

  • 限制性酶切作图
    限制性酶切作图 (Restriction mapping) 指的是根据酶切图谱将限制性酶切位点标定在 DNA 分子的相对位置。
    ■ 例如,某一个 DNA 片段可以被 EcoRⅠ和 BamHⅠ消化,根据消化片段的大小,可以将这些酶切位点在这个 DNA 片段上进行真实位置的标定,在 DNA 内部从左到右依次是 BamHⅠ、EcoRⅠ、BamHⅠ、BamHⅠ的酶切位点,两两之间的真实距离如图。
    在这里插入图片描述
    限制性酶切作图的局限性:更适合于小片段 DNA 的作图,且作图长度依赖于序列中酶切位点出现的频率。此外,大小相近的片段不容易在电泳中检测分离出来。
    改进方法
    利用单、双、部分酶切后片段的对比分析,但这也会带来非常复杂的计算问题,因为大片段 DNA 中酶切位点较多,酶切后的重复性更大;
    利用识别较长或稀少碱基的稀有限制性内切酶,将大段 DNA 降级为小片段来进行限制性酶切作图。

  • 荧光原位杂交作图
    荧光原位杂交 (Fluorescence in situ hybridization, FISH): 利用变性但不破坏形态的标准方法将中期染色体固定在玻片上,用待检测的 DNA 分子探针进行杂交,根据荧光判定判定标记 DNA 所在染色体的大致位置
    ■ 如图,费成染色体阳性的 CML 患者分裂中期细胞中 ABL 和 BCR 两个基因的 FISH 结果,由于发生相互易位,这两个基因从位于两个染色体的不同位置变为位于染色体的相邻位置。利用 FISH 方法,可以放非常容易观察到这一现象。 在这里插入图片描述 ■ 荧光原位杂交的应用范围取决于杂交的灵敏度、精确度,以及染色体的伸展性。但这种作图方法相对复杂,并不适合一次进行多基因的定位,数据积累相对较慢。

  • 序列标签作图 (STS 作图)
    序列标签位点 (Sequence-Tagged Site, STS): 利用 PCR 或杂交方法测定序列中的 STS,将不同的 STS 依照它们在染色体上的位置依次排列构建图谱的方法为序列标签位点作图
    ■ 只要是序列已知、单一拷贝(位置唯一)的序列都可开发成为 STS
    ■ 为了计算 STS 标记之间的相对距离,需要利用不同的 STS 标记在一条染色体的随机断裂的片段中的分离频率
    △ 例如,已知某染色体片段上有 4 个 STS 标记,为了计算他们之间的相对距离,利用 PCR 或杂交方法先分析大量随机断裂的染色体片段中这些 STS 共同出现的频率。结果显示,在全部片段中,有 6 个片段同时检测到标记 1、2,2 个片段同时检测到 3、4,据此可以推算,1 和 2 的距离远小于 3 和 4 的物理距离。再利用规范化的操作和合适的数学模型,可以精确计算不同分离数据对应的真实的物理距离。
    在这里插入图片描述
    表达序列标签 (expressed sequence tag, EST) 是人类基因组计划物理作图所用 STS 的主要来源。EST 是通过对互补 DNA(cDNA) 进行测序分析得到的约 300-500bp 的短段 DNA。一个 EST 代表了一个表达基因的部分转录片段。EST 是 STS 的主要来源,也是获得编码基因信息的重要途径,在一些基因组序列位置或注释不全的物种的基因组内,利用 EST 拼接可以寻找新的基因。

  • 依靠克隆的物理作图
    ■ 由于人类基因组庞大,测序前需要先将基因组中的染色体断裂成片段,并将每个片段克隆到不同载体中,以方便后续的测序和拼装,这样就会产生一个包括全基因组序列的克隆文库 (library)。
    依靠克隆的物理作图 (Clone-based mapping) 指的是将克隆文库中各个载体携带的基因组片段的顺序排列,明确它们在染色体上的真实位置。
    作图基本方法:根据基因组克隆文库中不同克隆的 DNA 片段之间的重叠顺序构建重叠群 (contig)。文库中每个克隆产生的限制性酶切位点图谱或每个克隆所携带的 STS 都可以是用于构建重叠群的标记。
    △ 例如,有三个携带染色体不同片段的克隆 1、2、3,检测它们携带的 STS 标记 A、B,发现 1 只有 A,3 只有 B,2 有 A 和 B,说明 2 分别和 1、3 有重叠,1 和 3 没有或只有很少的重叠,这样就可以将 1、2、3 构成一个重叠群,顺次排列在染色体上。
    在这里插入图片描述
    相邻的重叠群之间还可以进一步拼接,完成整条染色体的顺次拼接。
    ■ 基因组物理图谱绘制完成时,每条染色体都由一个单独的重叠群所覆盖的。

  • 人类基因组的物理图谱
    1998 年 8 月高密度全基因组组物理图谱发表
    来自 30181 个基因的 41664 个 STS 标记

6.4.2 基因组测序策略

鸟枪法测序

  • 鸟枪法测序 (shotgun sequencing) 即直接从单个测序反应中得到一系列短序列,然后通过检测重叠区推导出完整序列的方法。

  • 例如,需要测一个 5kb 的 DNA 序列,由于 Sanger 测序法一次测序仅能读取 500bp 左右的序列,因此先将这个 5kb DNA 随机打断成短片段后再进行两端测序,得到很多 500bp 左右的短序列,再根据重叠区域进行合并,最后得到完整的 5kb 序列。在这里插入图片描述

  • 鸟枪法测序的问题 :无法保证测序的覆盖度。因为断裂过程是随机的,无法保证所有序列都被测到,可以通过增加测序的总量(测序深度)来提高测序的覆盖度。

  • 测序深度 (sequencing depth) 指的是实际测序得到的碱基总量与基因组大小的比值。比如基因组大小是 5kb,实际测了 10kb,测序深度就是 2。
    ■ 测序深度是评价测序质量的重要指标,通常用字母 m 表示。较低的测序深度会导致拼装序列中出现大段空缺,较高的测序深度可以减少空缺,提高准确率。
    ■ 基因组中某一碱基未被测序的概率 P = e-m (e∶自然底数;m: 测序深度)
    当 m=1 时,P=36.8%; 当 m=2 时,P=12.5%; 当 m=5 时,P=0.67%(这是一个较为理想的概率)

  • 鸟枪法测序的一般步骤
    ① 建立高度随机、插入片段大小为 2kb 左右的克隆文库
    ② 高效、大规模的末端测序
    ③ 通过构建重叠群进行序列集合、拼装
    ④ 填补缺口,针对剩余序列未被测量到的缺口进行针对性的填补

  • 层次鸟枪法测序策略——人类基因组的实际测序策略
    层次鸟枪法 (Hierarchical shotgun sequencing) 是公共测序领域采用的测序策略。将人类的基因组分解成大片段构建克隆再进行逐个测序。
    (1) 将基因组 DNA 分段克隆到 BAC 载体中,明确各克隆的染色体定位。每个 BAC 克隆内的插入序列大小 100-200kb,全基因组构建约 30 万个 BAC 克隆文库,利用物理图谱可以明确各克隆的染色体之间的相互位置。
    (2) 分别对每个 BAC 克隆内的插入序列进行鸟枪法测序。构建插入片段为 2kb 的亚克隆进行末端测序和拼接,然后对缺口进行填补。
    (3) 将全部大片段进行连接,完成全基因组拼装。

  • 全基因组鸟枪法测序策略
    全基因组鸟枪法测序 (whole-genome shotgun sequencing) 指单纯利用鸟枪法测序技术完成全基因组测序。可以免去拼装 30 万个 BAC 克隆的大量工作。
    缺点∶序列拼接的计算量过大,容易产生错排和缺口等问题。
    定向鸟枪法 (directed shotgun)是私人测序领域采用的测序策略。公共领域已经完成并公开了遗传图谱和物理图谱,为序列拼装做了很多准备,私人测序领域在此基础上采用了改进的鸟枪法测序策略——定向鸟枪法,进行人类基因组的测序。利用基因组上已知的 DNA 标记为界标指导全基因组鸟枪法测序获得大量短序列的拼接过程。
    定向鸟枪法的关键步骤
    ① 全基因组随机断裂,构建亚克隆文库(插入片段大小为 2kb, 10kb, 50kb 的混合克隆文库),进行大规模高效的末端测序,序列集合和拼装重叠群。
    ② 利用大片段的成对的未端测序结果,将不同的重叠群组装成支架。
    ③ 利用公共测序领域的遗传图谱和物理图谱中的分子标记,将支架锚定到染色体上,寻找缺口并填补。

小结

  • 人类基因组计划先完成了遗传图谱和物理图谱的绘制,这些图谱不仅为后续的序列拼装提供了关键准备,也为人类疾病/性状的基因定位奠定了重要基础。
  • 公共测序领域和私人测序领域分别采用了层次鸟枪法和定向鸟枪法完成基因组的测序和组装。

猜你喜欢

转载自blog.csdn.net/zea408497299/article/details/126092105