【学习笔记】山东大学生物信息学-03 分子进化与系统发生

课程地址山东大学生物信息学


三、分子进化与系统发生

3.1 基本概念

分子进化

  • 分子进化:利用利用软件,从分子水平上 (DNA\、RNA、蛋白质序列) 构建各种生物间的系统发生树。准确度依赖软件的优劣及参数的设置。
  • 美国人 Linus Dauling 于 1964 年提出了分子进化的理论。在分子水平上 (DNA、RNA 或蛋白质序列)而不是基于物种的外在特征,来研究进化过程。
  • 基于某一个特定的分子在不同物种中的序列差异来构建系统发生树。
  • 基本假设
    (1) DNA、RNA 或蛋白质序列包含了物种的所有进化史信息
    (2) 分子钟理论: 一个特定蛋白质的进化变异的速度在不同物种中是基本恒定的。即两个蛋白质的序列越相近,他们距离共同祖先就越近。

同源

  • 同源 Homologs:来源于共同祖先的相似的序列为同源序列。
  • 相似序列并不一定是同源序列
  1. 直系同源 Orthologs:来自于不同物种的,由垂直家系(物种形成)进化而来的基因。并且典型的保留了与原始基因相同的功能
  2. 旁系同源 Paralogs:在同一物种中的来源于基因复制的基因,可能会进化出新的与原来有关的功能
  3. 异同源 Xenologs:通过水平基因转移, 来源于共生或病毒侵染所产生的相似基因。
    在这里插入图片描述
  • 相似度与同源性
    ◆ 相似度 → 可量化
    序列 A 与序列 B 的相似度是 80% ✔
    序列 A 与序列 B 是相似的 ✔
    同源性不可量化
    序列 A 与序列 B 的同源性是 80% ✖
    序列 A 与序列 B 是同源序列 ✔

3.2 系统发生树

系统发生树

  • 构建系统发生树的意义
    1. 对于一个未知的基因或蛋白质序列,确定其亲缘关系最近的物种。
    2. 预测一个新发现的基因或蛋白质的功能
    3. 有助于预测一个分子功能的走势。
    4. 追溯一个基因的起源
  • 系统发生树的结构
    在这里插入图片描述
  • 各种形状的系统发生树
    在这里插入图片描述
  • 系统发生树可以随意旋转:从任何一个点发出的枝子围着这个点旋转都不改变树的生物学意义。
    在这里插入图片描述

有根树和无根树

  • 有根树无根树:两者可以互换,根的位置通过外类群(outgroup)确定。
  • 无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。
  • 有根树反映了树上基因或蛋白质进化的时间顺序, 通过分析有根树的树枝的长度,可以了解不同的基因或蛋白质以什么方式和速率进化。做有根树需要指定外类群。
  • 外类群 outgroup:你所研究的内容之外的一个 group。保证它在你要研究的内容之外,但又不能太远可以不只是一个物种,而是多个(2-3 个即可)。
  • 例如,想要分析一个基因在不同人种之间的进化关系,可选择黑猩猩加入作为外类群一同参与建树。保证所选外类群在你的研究范围之外,但又不能太远。
  • 外类群分支处的节点就是根。
    在这里插入图片描述

物种树和分子树

  • 物种树是基于每个物种整体的进化关系(基于整个基因组) 构建的。
  • 分子树是基于不同物种里某个基因或蛋白质序列之间的关系构建的。
    在这里插入图片描述

3.3 系统发生树的构建

基于距离的 UPGMA 法

  • 非加权分组平均法 (UPGMA) 构建实例
  • Unweighted Pair Group Method with Arithmetic mean
  • 详见视频系统发生树的构建 P67
  • UPGMA 法是通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。
  • 序列两两间的距离可以用双序列比对得出的一致度/相似度代表,或用其他简化值代替。
  • 用序列间不同的碱基数目作为序列间遗传距离的度量。
    在这里插入图片描述
  1. 用表格记录距离;
  2. 距离最小 (1) 的 AB 合并聚集(分支点为 d(AB)/2=0.5)看成一个整体,计算 AB 与 C、D 的距离;
    在这里插入图片描述
  3. 找出新的最小距离 CD(2),再将 CD 合并聚集(分支点为 d(CD)/2=1)
  4. 将 CD 看成一个整体,计算 CD 与 AB 的距离 (3)。
  5. 将 AB 和 CD 合并归为一类,分支点为 d(CDAB)/2=1.5。
    在这里插入图片描述
  • 树上枝条的长短反映其与共同祖先的距离。

  • 用什么序列建树?DNA 还是蛋白质?
    ◆ 如果 DNA 序列两两间的一致度大于 70%,就选用 DNA 序列
    ◆ 如果 DNA 序列两两间的致度小于 70%的话,DNA 序列和蛋白质序列都可以用(经验:蛋白质序列更好)。

3.4 MEGA7 构建 NJ 树

  • MEGA7:免费,操作简单(自动效果好),业界普遍认可(可用于文章发表),支持多操作系统。
  • 详见视频MEGA7 构建 NJ 树 P68

猜你喜欢

转载自blog.csdn.net/zea408497299/article/details/125176458
今日推荐