课程地址:山东大学生物信息学
三、分子进化与系统发生
3.1 基本概念
分子进化
- 分子进化:利用利用软件,从分子水平上 (DNA\、RNA、蛋白质序列) 构建各种生物间的系统发生树。准确度依赖软件的优劣及参数的设置。
- 美国人 Linus Dauling 于 1964 年提出了分子进化的理论。在分子水平上 (DNA、RNA 或蛋白质序列)而不是基于物种的外在特征,来研究进化过程。
- 基于某一个特定的分子在不同物种中的序列差异来构建系统发生树。
- 基本假设:
(1) DNA、RNA 或蛋白质序列包含了物种的所有进化史信息;
(2) 分子钟理论: 一个特定蛋白质的进化变异的速度在不同物种中是基本恒定的。即两个蛋白质的序列越相近,他们距离共同祖先就越近。
同源
- 同源
Homologs
:来源于共同祖先的相似的序列为同源序列。 - 相似序列并不一定是同源序列。
- 直系同源
Orthologs
:来自于不同物种的,由垂直家系(物种形成)进化而来的基因。并且典型的保留了与原始基因相同的功能。 - 旁系同源
Paralogs
:在同一物种中的来源于基因复制的基因,可能会进化出新的与原来有关的功能。 - 异同源
Xenologs
:通过水平基因转移, 来源于共生或病毒侵染所产生的相似基因。
- 相似度与同源性
◆ 相似度 → 可量化
序列 A 与序列 B 的相似度是 80% ✔
序列 A 与序列 B 是相似的 ✔
◆ 同源性 → 不可量化
序列 A 与序列 B 的同源性是 80% ✖
序列 A 与序列 B 是同源序列 ✔
3.2 系统发生树
系统发生树
- 构建系统发生树的意义
- 对于一个未知的基因或蛋白质序列,确定其亲缘关系最近的物种。
- 预测一个新发现的基因或蛋白质的功能。
- 有助于预测一个分子功能的走势。
- 追溯一个基因的起源。
- 系统发生树的结构:
- 各种形状的系统发生树
- 系统发生树可以随意旋转:从任何一个点发出的枝子围着这个点旋转都不改变树的生物学意义。
有根树和无根树
- 有根树和无根树:两者可以互换,根的位置通过外类群(outgroup)确定。
- 无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。
- 有根树反映了树上基因或蛋白质进化的时间顺序, 通过分析有根树的树枝的长度,可以了解不同的基因或蛋白质以什么方式和速率进化。做有根树需要指定外类群。
- 外类群
outgroup
:你所研究的内容之外的一个 group。保证它在你要研究的内容之外,但又不能太远。可以不只是一个物种,而是多个(2-3 个即可)。 - 例如,想要分析一个基因在不同人种之间的进化关系,可选择黑猩猩加入作为外类群一同参与建树。保证所选外类群在你的研究范围之外,但又不能太远。
- 外类群分支处的节点就是根。
物种树和分子树
- 物种树是基于每个物种整体的进化关系(基于整个基因组) 构建的。
- 分子树是基于不同物种里某个基因或蛋白质序列之间的关系构建的。
3.3 系统发生树的构建
-
构建方法
- 基于距离的方法 UPGMA neighbor-joining (NJ) (计算速度最快,结果最粗糙)
- 最大简约法 maximum parsimony (MP) (高不成低不就,很少有人用)
- 最大似然法 maximum likelihood (ML) (建议用,计算速度和准确度都适中)
- 贝叶斯推断法 Bayesian inference (最慢,结果最准确)
-
目前流行的建树软件:
软件 说明 地址 PHYLIP 免费的、集成的进化分析工具 http://evolution.genetics.washington.edu/phylip.html MEGA 图形化、集成的进化分析工具 http://www.megasoftware.net/ PAUP 商业软件,集成的进化分析工具。收费 http://paup.csit.fsu.edu/ PHYML 最快的 ML 建树工具 http://www.atgc-montpellier.fr/phyml/ MrBayes 基于贝叶斯方法的建树工具 http://mrbayes.csit.fsu.edu/
基于距离的 UPGMA 法
- 非加权分组平均法 (UPGMA) 构建实例
- Unweighted Pair Group Method with Arithmetic mean
- 详见视频:系统发生树的构建 P67
- UPGMA 法是通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。
- 序列两两间的距离可以用双序列比对得出的一致度/相似度代表,或用其他简化值代替。
- 用序列间不同的碱基数目作为序列间遗传距离的度量。
- 用表格记录距离;
- 距离最小 (1) 的 AB 合并聚集(分支点为 d(AB)/2=0.5)看成一个整体,计算 AB 与 C、D 的距离;
- 找出新的最小距离 CD(2),再将 CD 合并聚集(分支点为 d(CD)/2=1)
- 将 CD 看成一个整体,计算 CD 与 AB 的距离 (3)。
- 将 AB 和 CD 合并归为一类,分支点为 d(CDAB)/2=1.5。
-
树上枝条的长短反映其与共同祖先的距离。
-
用什么序列建树?DNA 还是蛋白质?
◆ 如果 DNA 序列两两间的一致度大于 70%,就选用 DNA 序列。
◆ 如果 DNA 序列两两间的致度小于 70%的话,DNA 序列和蛋白质序列都可以用(经验:蛋白质序列更好)。
3.4 MEGA7 构建 NJ 树
- MEGA7:免费,操作简单(自动效果好),业界普遍认可(可用于文章发表),支持多操作系统。
- 详见视频:MEGA7 构建 NJ 树 P68