当前位置:首页 >> 农林牧渔 >>

系统发育分析2011.5.23


生物信息学在系统发育分析中的应用(自己原创) 生物信息学在系统发育分析中的应用(自己原创)

作者: yyn0452

收录日期: 2009-06-25

发布日期: 2009-06-25

摘要:生物多样性的价值越来越被人们所认识与利用。 生物多样性的原因是生物进化的过 程中,物种和物种之间、物种和

无机环境之间共同进化形成结果。对生物进行系统发育 分析可以发现它们之间的亲缘关系及进化过程,从而对其的利用更有针对性。本文综述 了系统进化的各种研究方法以及生物信息学在其中的应用,并对生物信息学中所采用的 研究生物进化关系的方法进行了比较,以及分析了生物信息学的发展趋势。 关键词:系统发育分析; 生物信息学; 分子进化; 系统发育树 引言 自达尔文提出进化论以来,人们普遍认为各种物种之间或多或少都存在某些亲缘关系。 科学家们根据进化论分析物种进化的规律并用这些规律进行物种分类,种群及生物类群 的演化研究。然而,传统的进化分析只是从物种的形态,生活习性以及重要的指标进行 分析,其间并不涉及分子水平下的进化研究。随着现代生物学的发展,特别是基因测序 以来,有了丰富的基因序列资源,科学家们更趋向于从序列上进行分子进化分析,这样 的分析结果更能反映物种之间的亲缘关系。科学家已经通过人类的基因进行的分子进化 分析发现了人类的迁徙路径。 生物信息学的发展对系统发育分析提供了有力的研究方法。

1:生物进化的研究发展 当代生物进化的研究存在着生物系统学与生态学进路、理论生物学进路和系统生物学进 路,这几种进路的研究范式继承了生物学在历史发展中形成的博物学、哲学和医学生理 学这几个主要的研究传统,它们在不同方向上把生物进化的研究推进到一个新的层次。

在进化思想的形成和发展过程中,生物分类学、比较解剖学、胚胎学、古生物学、生物 地理学、生态学等学科都做出了一定的贡献,达尔文正是作为一个博物学家、集大成者, 在这各个领域研究的基础上于《物种起源》一书中提出了他的进化学说。在达尔文进化 论提出之后,各个学科基本上便在达尔文所提出的进化范式基础上来进行研究,并把各 个学科的知识推向一个新的境界。 系统生物学是近年兴起的学科,其创始人之一的美国科学家胡德(Teroy Hood)说:“系 统生物学将是二十一世纪医学和生物学的核心驱动力”。 近年来国内外很多大学和研究院 纷纷成立系统生物学研究所或研究中心, 一些国际性的系统生物学研究会议也频繁召开。 那么什么是系统生物学呢?据我国工程院院士杨胜利教授的定义,系统生物学是“在细 胞、组织、器官和生物体整体水平上研究结构和功能各异的生物分子及其相互作用,并 通过计算生物学来定量和预测生物功能、表型和行为”的这样一门学科。系统生物学是适 应于当前分子生物学的快速发展以及人类基因组计划等大科学工程而提出来的。人们在 生命科学的微观领域沿着还原论的思路揭示了生命在微观领域上的众多信息,使生命科 学由基因时代推向基因组时代,又继而推向后基因时代。所谓后基因时代就是要从整体 上来理解和分析人们在研究中获得的复杂信息,因而基因组学、转录组学、蛋白质组学、 代谢组学、相互作用组学和表型组学等高通量的组学实验平台就构成了系统生物学。系 统生物学不仅在医学和农学等方面具有重要的应用前景,更重要的是它代表了生命科学 理论的重大发展,在生物进化的研究方向上就提出了许多新的发现。如基因平行转移的 发现、最小基因组与生命起源的关系、生物体可进化性概念的提出、无尺度网络生物模 型的建立、蛋白质网络中与进化有关的各种 Hub 的发现等等。这些新的概念和进化模型 的提出,都揭示了生物系统在分子相互作用下的演化规律,并在不同程度上对其它层次 上的演化具有非常重要的启发意义和应用价值。

2:什么是生物信息学及其产生背景 随着基因测序的发展,现在基因数据库里面的基因序列数以万计,其中最著名的基因数 据库有 NCBI、 EBI、 DDBJ 数据库。 这说明基于序列分析的生物学时代已经到来。 自从1990 年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今 已完成了约40多种生物的全基因组测序工作, 人基因组约3x109碱基对的测序工作也接近 完成。至2000年6月26日,被誉为生命"阿波罗计划"的人类基因组计划,经过美、英、日、 法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程 碑式的事件。它预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美

国 GenBank 数据库中的 DNA 序列总量已超过70亿碱基对。在人类基因组计划进行过程中 所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更快捷。可以预 计,今后 DNA 序列数据的增长将更为惊人。生物学数据的积累并不仅仅表现在 DNA 序列 方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。 生物信息学就是在如此庞大的基因序列数目下发展起来的。生物信息学是把基因组 DNA 序列信息分析作为源头,然后根据序列信息应用数学与统计学方法计算出不同物种之间 的同源序列差异,再根据这些差异构建系统发育树。 。因此在基因组研究时代,生物信息 学包含三个重要内容,它们是基因组信息学、数据挖掘以及系统发育学。基因组信息学 则是生物信息学的源头和基础。 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是 当今乃至下一世纪自然科学和技术科学领域中“基因组”、 “信息结构”和“复杂性”这三个重 大科学问题的有机结合。该项目的实施不仅有助于认识遗传语言,读懂人类基因组全部 DNA 序列,认识人类自身,而且必将有助于揭示“信息结构”和“复杂性”的深刻内涵,以及 遗传、发育和进化的联系,大大丰富和发展现有的物理学、生物学、化学、数学、计算 机科学、信息科学和系统科学的理论和方法,从而推动学科群的发展,成为自然科学中 多学科交叉的有活力的、有影响的新领域。

3:应用生物信息学研究系统发育树的方法

生物信息学是系统发育研究中重要的分析手段, 它通过 DNA 序列间的差异计算出核苷酸 多态性, 并由此构建分子谱系树, 推断群体的扩张模式、历史动态,推算群体起源、分歧 的大致时间以及群体的进化速率、基因混合程度, 甄别物种序列等, 并可以给出统计学 上的量化结果。它可以从分子水平上探讨群体进化的规律, 并可将这些规律以直观、形 象的方式表现出来。 进化的实质,在一定程度上可以说是群居遗传构成上或基因频率上的变化和累计,通过 计算等位基因频率等指标,可以了解其遗传进化关系。在进化分析时,我们通常要选择 一个“进化时钟”,就是在选择序列分析时,要选取不同的物种的同源序列,这样结果才 有可比性,这些被选取的序列就成为“进化时钟”。现在科学家们已经发现了各种各样的 进化时钟,例如脂肪酸分析,同工酶分析,核糖体 RNA 分析,免疫分析等等。

小亚基核糖体 RNA 以其独特优势被较广泛的作为进化时钟。小核糖体亚单位 RNA 包括5S Rrna,16S rRNA, 18S rRNA。核糖体 RNA 具有以下优点:具有重要且恒定的生理功能;普 遍存在于真核生物和原核生物中,而且在系统发育上具有适当的保守性;分子量大小适 中,在细胞中含量大(约占细胞中 RNA 的90%);高度保守,中度保守和高度变化的序列区 域,适用于进化距离不同的各类生物亲缘关系的研究。不同物种的 rRNA 基因序列在某些 位点会以不同的几率发生突变, 它们在种属界等水平上表现出结构与功能的高度保守性, 序列的相似性程度可以反映它们的系统发育关系。 特别是16S rRNA 由于分子大小适中(1.5kbp 左右) ,既能体现不同种属之间的差异,用 能利用测序技术较容易地得到其序列而得到有关系统发育分析的充足信息。故被大多数 生物学家所接受。16SRNA 的同源性分析最适合于属及属以上的远缘关系。

4:生物信息学系统发育分析的技术及算法 序列比对是构建系统发育树、进行系统发育分析的前提和必要条件,在生物进化研究中, 序列比对的目的是建立起所检测序列与其他序列的同源关系, 提取系统发育分析数据 集。如果序列排序不当, 将严重影响后续的系统发育分析。通过序列比对, 可以筛选出 变异位点, 对实验数据进行初步估计。N eedlem an 的算法是目前公认的最有效的序列 比对方法, 它以相似性指数为标准度量出最好的排列。C lustalX ( C lustalW ) 是进 行此项工作的经典程序. 遗传距离的计算是判断个体间、群体间亲缘关系的基础, 也是距离矩阵法构建系统发育 树的重要手段. 计算个体间遗传距离的替代模型有很多, 其中最简单的是 p 距离模型. 其计算公式为 p = nd /n( nd 和 n 分别为所检测的两序列间不同核苷酸数和配对总数)。 比较常用的模型还有 Jukes-Cantor,Kim ura, Equal-Input 和 Tamura-Nei 等模型。由 于核苷酸替代的实际过程较复杂, 这些模型都存在一些假定, 如 Jukes-cantor 模型假 定任一位点的核苷酸替代频率都是相同的, Kimura 双参数模型考虑了转换和颠换速率 的不同, 而 Tamura-Nei 些学者提出更复杂的距离测度, 如对数行列式和准线性距离等. 对于群体之间的遗传距离, 常用以下公式计算: D = d ij - [ ( di + dj) /2] , 其中 dij 是指种群 i 和 j 间的平均配对差异, 而 di 和 dj 则分别为种群 i 和 j 内的平均配对 差异。 对于计算出的遗传距离,我们就要构建系统发育树以直观的方式反映它们之间的遗传进 化的关系。系统发育树是表达分类群之间系统发育关系的一种树状图, 它可以推测生物 类群系统发育的分支样式, 给出分支层次或拓扑图形, 并能估算类群之间遗传关系的远

近。在生物进化研究中, 通过构建系统发育树, 可以推断个体之间以及群体间的亲缘关 系, 以及研究对象在系统树中所处的进化地位等。目前构建系统发育树的算法大致有三 种: 距离矩阵法, 首先获得所有分类群间的进化距离, 之后基于这些距离值构建系统发育树。 邻接距离矩阵法( NJ)在系统发育树构建中应用最为广泛, 它基于最小进化原理, 可以 较快的构建系统树, 同时也比较适合于分析较大的数据集, 并可以很快地进行自展检 验。 最大简约法( MP ,Maximum Parsimony),源于形态性状的研究, 它是一种优化标准,MP 法存在如下优点: 它不需要距离法或似然法在处理核苷酸替代时所必需的假设, 因此, 当序列分歧度较低时,无需模型的 MP 法即可获得比其他方法更可靠的系统树。 最大似然法( ML, Maximum Likelihood),以一个特定的替代模型分析既定的一组序列数 据, 得到一定的拓扑结构, 然后通过比较不同拓扑结构的似然函数值, 将具有最大似然 值的拓扑结构看作最佳的系统树。与距离矩阵法不同, ML 与距离矩阵法不同, ML 法试图 充分有效地利用所有资料而不是将资料减缩为距离的集合。它与简约法的不同之处在于 其进化概率模型采用了标准的统计方法。 构建系统发育树的步骤一般是:先进行序列比对;再利用比对的结构用合适的算法求出 遗传距离;最后再根据遗传距离构建发育树。

5:生物信息学系统发育分析展望 随着测序技术的发展,基因数据库里的序列数据越来越多。生物信息学可以利用的资源 就是这些序列,说到底,生物信息学就是一门预测性学科,根据已知的东西验证预测未 知的东西。对于系统发育树的展望,可以是根据已知序列的比对,找出各种物种之间特 别是人类与其他物种之间的联系,以某种生物为研究对象来研究人类的各种生理生化的 机理,让人们生活的更好。例如在药物设计中,可以通过系统发育分析找出其他物种与 人相近的同源序列,再以该物种为研究对象,研究药物时与靶点相作用的机理。从而避 免了在人身上的直接实验,提高了安全性。 结语 在这里还想谈论有关生物信息学的发展问题。生物学是生物信息学的核心和灵魂,数学 与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就 是要预测他对生物学的发展将带来什么样的根本性的突破。这种预测是十分困难的,甚 至几乎不可能。但是人类科学研究史表明,科学数据的大量积累将导致重大的科学规律

的发现。例如:对数百颗天体运行数据的分析导致了开普勒三大定律和万有引力定律的 发现;数十种元素和上万种化合物数据的积累导致了元素周期表的发现;氢原子光谱学 数据的积累促成了量子理论的提出,为量子力学的建立奠定了基础。历史的经验值得注 意,有理由认为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。

参考文献

[1] 吴家睿.最小基因组与生命起源.科学,2004,5:18-19. [2] 鲁辛辛,刘向礻韦,李大为. 微生物基因分类鉴定的方法学进展.中国实验诊断学 2003年6月第7卷第3期 [3] 张晓君,姚檀栋,马晓军.微生物系统发育与进化关系研究方法及其应用.微生物学通 报.2001年28(4)

[4] 朱 泓, 张全超. 中国边疆地区古代居民 D N A 研究.吉林大学社会科学学报, 2003 ,29(3):86—9 2.

[5] 洪义国,孙谧,张云波,李勃生.16S rRNA 在海洋微生物系统分子分类鉴定及分子检测 中的应用. 海洋水产研究. 2002年3月23卷第1期

[6] 陈文新,细菌系统发育.微生物学报.l998 38(3):24c

[7] 杨胜利.系统生物学新进展.中国科学院院刊.2004,1:31.

[8] 林 魁. 浅谈微生物基因组的进化研究. 生物学通报. 2008年第43卷第5期

[9] 钱存柔.从微生物角度看生物进化.北京大学生物系

[10] 郑伟国,郭 英.生物信息学的现状与未来.中国民用航空学院理学院

[11] 陈润生.生物信息学.生物物理学报,1999,15(1):5-13 [12] MarchiE,钟南.基因组学在基因组计划中的作用.生命的化学,1999,(1):9-10

[13] 孙啸,陆祖宏,谢建明.生物信息学基础.清华大学出版社.2005.5

[14] 施季森何祯祥 21世纪的生物信息学评述南京林业大学学报;2001,(3):1-5 [15] 张春霆.生物信息学的现状与展望.院士论坛22卷6期:17-20 [16] 蒋功成. 当代进化生物学研究的三种进路及其传统. 医学与哲学. 2006 年第4期

转载请注明出处及作者

作者:HarveyWang 这难道就是传说中的剪刀加浆糊?:D

作者:wjy1597 需要大家很好的思考,生物信息学会成为生物其他学科的基础。

南极抗细菌活性菌株的筛选及系统发育分析 Screening and phylogenetic analysis of antibacterial strains isolated from antarctic
【作者】 李贺; 林学政; 何培青; 刘同军; 【Author】 LI He1,2 LIN Xue-Zheng2 HE Pei-Qing2 LIU Tong-Jun1(1.Food and Biological Engine ering Department of Shandong Institute of Light Industry,Jinan,Shandong 250353,China)(2. Key Laboratory of Marine Bioactive Substances,SOA,First Institute of Oceanography,SOA,Qi ngdao, Shandong 266061,China) 【机构】 山东轻工业学院食品与生物工程学院; 国家海洋局第一海洋研究所国家海洋局海洋生物活性 物质重点实验室; 【摘要】 分别以大肠杆菌、枯草芽孢杆菌、金黄色葡萄球菌、青枯假单胞菌、绿脓假单胞菌和苏云金 芽孢杆菌为指示菌,采用琼脂扩散法对实验室保存的580株极地细菌进行了抗菌活性菌株的筛选与活性 验证,从中筛选出4株对上述指示菌株具有明显抗菌效果的活性菌株,其编号分别为97、Z11、Z18及 Z19, 并对其生长曲线、抗菌活性曲线和系统发育地位进行研究。结果表明,4株菌均在培养24 h 后进入指数 生长期,菌株97在培养48 h 后达到稳定期,而菌株 Z11、Z18及 Z19在培养60 h 后达到稳定期。抗菌活性 分别在培养84、96、72和72 h 时达到最高。系统发育分析表明,该4株菌分别属于伦黑墨氏菌属(Rhein heimera)、嗜冷杆菌属(Psychrobacter)、假单胞菌属(Pseudomonas)和嗜冷杆菌属(Psychrobacter)。

【Abstract】 Escherichia coli,Bacillus subtilis,Staphylococcus aureus,Pseudomonas solanace arum,Pseudomonas aeruginosa and Bacillus thuringiensis were used as indicator strains re spectively,four antibacterial strains,named as 97,Z11,Z18 and Z19 were screened from 580 strains of bacteria isolated from Antarctic by the method of agar diffusion.The growth curves,antibacterial curves and phylogenetic analysis of 4 antimicrobial strains were st udied.The results showed that all of the four strains reached the log p... 【关键词】 南极细菌; 抗菌活性; 系统发育分析; 【Key words】 Antarctic bacteria; Antibacterial activity; Phylogenetic analysis; 【基金】 海洋公益性行业科研专项经费项目(No.01005032-2);;国家863计划项目(No.2007AA091905);; 基本科研业务费专项资金项目(No.2007T11)

分子进化与系统发育分析
系统发育学研究的是进化关系,系统发育分析就根据同源性状的分歧来推断或者评估这些进化关系。 通过系统发育分析所推断出来的进化关系一般用分枝图(进化树)来描述,这个进化树描述了分子(基因树)、 物种以及二者之间遗传关系的谱系。由于“Glade”这个词(拥有共同祖先的同一谱系)在西腊文中的本意是分 支,所以系统发育学有时被称为遗传分类学(cladistics)。 在现代系统发育研究中,重点己不再是生物的形态学特征或其他特征,而是生物大分子尤其是序列,对 序列的系统发育分析又称为分子系统学或分子系统发育研究。它的发展得益于大量序列的测定和分析程序 的完善。比起许多其他实验性学科,分子系统学与其他进化研究一样有其局限,即系统发育的发生过程都 是己经完成的历史,只能在拥有大量序列信息的基础上去推断过去曾经发生过什么,而不能再现。由于系 统发育分析不太可能拥有实验基础,至多是些模拟实验或者病毒实验:如何处理序列从中得到有用信息、如 何用计算的办法得到可信的系统树、如何从有限的数据得到进化模式成为这个领域的研究热点。 1进化树构建 进化树构建 构建进化树的方法包括两种:一类是基于序列类似性比较, 主要是基于氨基酸/核酸相对突变率矩阵计算不 同序列差异性积分作为它们的差异性量度而构建的进化树;另一类是在难以通过序列比较构建进化树的情 况下,通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立的进化树。 2评估进化树和数据 评估进化树和数据 评估进化树和 现在己经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。对于前者,最流行的方法 是用数据信号和随机数据作对比实验(偏斜和排列实验):对于后者,可以对观察到的数据重新取样,进行进 化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树都进行评估。本文只 阐述几个常用的方法: 偏斜实验(Skewness Test):统计的临界值随着分类群数口的不同和序列中点的不同而不同,对随机数据 集呈现的信号很敏感,可以用来决定系统发育信号是否保留着。 排列实验(PTP, permutation tail probability):对 MP 树的分值和那些通过对每一个位点都进行大量排列 组合而得到的数据所推算出来的进化树的分值进行比较,从而决定在原始数据中是否存在系统发育信号。 自引导评估(bootstrap ): Bootstrap 是由 Felsenstein (1985)引入分子分类领域的,现己成为分析分 子树置信区间最常用的方法。其原理是假定某序列 Ao 有 N 个位点,Bootstrap 复制时从 Ao 中随机取 N 个 位点。Ao 中的某些位点可能被随机遗漏,而某些位点则可能取到不仅一次,由此组成一个新序列 A1。对 一组数据复制 n 次, 则可得到 Ao 衍生的 n 组数据。 由此可构建 n 个分子树, 根据“多数规则”( majority rule)

从这 n 个分子树中统计得到一致树(consensus tree ),一致树中各分支结构在 n 个分子树中出现的比率便 表示原始数据对该结构的支持率。 可以对任何建树方法进行评估。模拟研究表明,在合适的条件下也就是各种替换速率基本相等,树枝基 本对称的条件下,如果自引导数值大于70,那么所得的系统发育进化树能够反映真实的系统发生史的可能 性要大于95 % 。 3 线性树 线性树(Linearized Tree) 在进化中,虽然核酸或氨基酸的替代绝不会是严格恒定的,但是在估计序列间分歧时间方面,分子钟依 然有用。当今我们对物种间的分歧时间或基因重复事件发生的时间仍知之甚少,因此为了理解进化过程, 即便粗略地估计分歧时间也是十分重要的。排除比平均速率显著慢或快的谱系,并对剩余的谱系按分子钟 假说构建进化树,就有可能估计不同谱系对间或不同序列对间粗略的分歧时间。按此途径构建的树称为线 性树。线性树始终遵循分子钟假说。线性树的构建分如下几个步骤: (1)用无需速率恒定假说的构树法对 一组序列构建可靠的树,并用外类群序列定出树根。 (2)对所用序列检验速率恒定假说,并删除与平均速 率有显著偏差的序列。 (3)用速率恒定假说对剩余的序列重建一棵系统树。 (4)如果己知某一序列对的分 歧时间和序列分歧度,则能标定进化时间。

进化树的构建方法
1 建立数据模型 建立一个比对模型的基本步骤包括:选择合适的比对程序,然后从比对结果中提取系统发育的数据集, 至于如何提取有效数据, 取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所 谓的空位状态)。一个典型的比对过程包括:首先应用 CLUSTALW 程序及类似程序,进行多序列比对,最 后提交给一个建树程序。这个过程有如下特征选项:①部分依赖于计算机;②需要一个先验的系统发育标 准(即需要一个前导树);③使用先验评估方法和动态评估方法对比对参数进行评估; ④对基本结构(序列)进行 比对;⑤应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析方法。 2 决定替代模型 替代模型既影响比对,也影响建树。因此需要采用递归方法。对于核酸数据而言,可以通过替代模型中 的两个要素进行计算机评估,但是对于氨基酸和密码子数据而言,没有什么评估方案,其中一个要素是碱 基之间相互替代的模型。另外一个要素是序列中不同位点的所有替代的相对速率。还没有一种简单的计算 机程序可以对较复杂的变量(比如,位点特异性或者系统特异性替代模型)进行评估,同样,现有的建树软 件也不可能理解这些复杂变量。 (1)碱基取代模型 )碱基取代模型。

一般而言, 生物化学性质相近的碱基之间的取代频率较高。 DNA 中, 在 四种转换(A→G, G→A,C→T,T→C) 的频率比颠换(A→C,A→T,C→G,G→T)以及它们的反向取代的频率要高。这些偏向会影响两个序列之间 的预计分歧。各残基之间的相对取代速率一般用矩阵形式给出:对碱基而言,行和列都是4,对于氨基酸, 行和列都是20(如 PAM 矩阵)。对于密码子,行和列都是61(除去终止密码子)。矩阵中对角元素代表不同序 列拥有相同碱基的代价,非对角线元素对应于一个碱基变为另一个碱基的相对代价。固定的代价矩阵就是 典型的静态权重矩阵,MP 法中使用的就是这种,如图5。又如在 ML 法中,代价值是山即时的速率矩阵得 到,如图6,这个矩阵代表了各种取代可能会发生的概率的 ML 估计值。

图6中,非对角线兀素 an代表一个变化的瞬时速率、不同取代之间的相对速率和目标碱基 的频率。而对角线兀素是非零值,很有效说明了一种可能性,即序列之间的分歧度越大,越 有可能在很偶然的情况下拥有相同的碱基。 还有一种模型称为“时间可逆”, 认为“前进”和“进 化”的取代速率相同。任何一种“时间可逆”的核葺酸取代模型都可以用图2-5的矩阵来刻画, 只用其中任何一个速率和其他任何速率的差异即可,在任意组合中,最多可达6个参数,每 个速率参数都是独立的。图5权重矩阵

(2)位点之间取代速率模型。 )位点之间取代速率模型。 除了前面取代模型的多元化外,序列中各个不同位点之间的取代速率差异也会对进化树的结果产生深远 影响。关于位点之间的速率差异(位点异质性),一个最明显的例子就是在三联体编码中,第三个编码位点 比前两个更加容易发生变化。 在分析编码序列时, 许多发育分析都会将第三个位点排除:然而在某些情况下, 速率差异模型会更加敏锐,如 rRNA 的保守序列。对位点差异的取代速率予以估值的方法有非参数模型、

不变式模型和 Gamma 模型。非参数模型在 MP 法中使用,对 ML 法被认为在计算上不可行。不变式模型对 一定比例的位点进行估值,而这些位点不能自由变化,其余的位点假定为等概率变化。Gamma 模型假定一 给定序列变化的概率服从 Gamma 分布,据此指定位点的取代概率。Gamma 分布的形状决定于其参数,描 述了一个序列中各个位点的取代频率分布。目前 DNA 的替代模型有十种之多,再加上不变位点参数和形 状分布参数。Gamma,模型更有几十种之多, 几种有代表性的替代模型是 JC, F81, K80, HKY 和 GTR。 (3)取代模型的选择 ) 最好的取代模型并不一定总是拥有最多参数的模型。 因为对每一个参数进行估值都会引入一个相关变量, 从而使整体的变数增加, 有时甚至会对模型起到抑制作用。 PAt 中可以对 DNA 序列的取代模型进行规范 在 一个较好的策略,使用似然法同时评估几个,可逆的取代速率、gamma 分布的形状参数和不变位点的比例。 通过估算的取代参数,可以通过比较较多参数和较少参数分别评估得到的似然分值,决定一个简化的模型 是否合理。目前较好的选择模型方法是似然比检验(LikelihoodRatio Test) 3建树方法 建树方法 目前,三种主要的建树方法分别是距离法(如 Neighbor joining , NJ) 、最大简约(Maximum parsimony, MP )和最大似然(Maximum likelihood ML)。最大似然方法考察数据中序列的多重比对结果,优化出拥有 一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果。距离法考察 数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大简 约方法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的 碱基差异。距离方法简单地计算两个序列的差异数量。这个数量被看作进化距离,而其准确大小依赖于进 化模型的选择。然后运行一个聚类算法,从最相似(也就是说,两者间的距离最短)的序列开始,通过距离 值方阵计算出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。 用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。 最大似然方法是评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假 定所有核苷酸(或者氨基酸)之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部 节点上,并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸+ A? ,那么, 如果假定原先的核苷酸是“C",得到现在的“A-’的.可能性比起假定原先就是“A+’的可能性要小得多)。所有 可能的再现(不仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后这个数据集的所 有比对位点的似然值的加和就是整个进化树的似然值。 4 进化树搜索 单一的进化树的数量会随着分类群数量的增长而呈指数增长,从而变为一个天文数字。由于计算能力的

限制,现在一般只允许对很小一部分可能的进化树进行搜索。具体的数量主要依赖于分类群的数量、优化 标准、参数设定、数据结构、计算机硬件以及计算机软件。 现在有两种搜索方法保证可以找到最优化的进化树:穷举法(exhaustivealgorithms)和树枝一跳跃法(BB, branch -and-band)。对于一个很大的数据集,这两种方法都很不实用。对分类群数量的限制主要取决于数据 结构和计算机速度, 但是对于超过20个分类群的数据集, 方法很少会得到应用。 BB 穷举法要根据优化标准, 对每一个可能的进化树进行评估。BB 方法提供一个逻辑方法,以确定哪些进化树值得评估,而另一些进化 树可被简单屏蔽。因此 BB 方法通常要比穷举法快得多。 绝大多数分析方法都使用“启发式”的搜索。 启发式算法(heuristic algorithms 搜索出相近的次优化的进化树 家族(“岛屿”),然后从中得到优化解(“山顶”)。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻 底也是最慢的程序(TBR, treebisection-reconnection,进化树对分重接)先把进化树在每一个内部树枝处劈开, 然后以任意方式将劈开的碎片重新组合起来。 最快的算法(NNI , nearest-neighborinterchange)只是检查一下相 邻终端的不太重要的重新组合。因此,倾向于找到最近的岛屿的山顶。 降低搜索代价的最好方法是对数据集进行剪除。 影响优化搜索策略选择的因素(数据量数据结构, 时间量, 硬件,分析口的)太复杂,无法推荐一个简单可行的处方。因此,进行搜索的用户必须对数据非常熟悉且有 明确的口标,了解各种各样的搜索程序及自己硬件设备和软件的能力。 除上述当前应用最广的方法外, 还有大量的建立和搜索进化树的其它方法。 这些方法包括 Wagner 距离方 法和亲近方法(距离转化方法):Lake 的不变式方法(一个基于特征符的方法, 它选择的拓扑结构包含一个意义 重大的正数以支持颠换):Hadamard 结合方法(一个精细的代数方阵方法,对距离数据或者观察到的特征符 进行修正):裂解方法(这个方法决定在数据中应该支持哪一个基于距离的.IJ 选的拓扑结构):四重奏迷惑 (Quartet puzzling)方法,该法,可以为 ML,建树方法所应用,这个算法相对而言是个较快的进化树搜索算 法。 5 确定树根 上述的建树方法所产生的都是无根树(进化树没有进化的极性)。为了评估进化假说,通常必须要确定进 化树的树根。确定系统发育进化树的树根并不是个简单问题。一种确定树根的好方法就是分析时加入一个 复制的基因。如果来自绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去,那么从逻辑 上我们就可以把进化树的树根定位于平行基因进化树的交汇处,当然要假定在所有进化树中都没有长树枝 问题。

生物信息资源与实践之系统发育分析
科技领航 2008-06-26 13:43:26 阅读118 评论0 字号:大中小 中

系统发育学研究的是进化关系, 系统发育分析就是要推断或者评估这些进化关系。 通过 系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述 了同一谱系的进化关系,包括了分子进化(基因树) 、物种进化以及分子进化和物种进化的 综合。因为”clade”这个词(拥有共同祖先的同一谱系)在希腊文中的本意是分支,所以系 统发育学有时被称为遗传分类学(cladistics)。在现代系统发育学研究中,研究的重点已经不 再是生物的形态学特征或者其他特性, 而是生物大分子尤其是序列。 本实验针对某条未知蛋 白序列,搜索其同源序列,以进行系统的发育分析。 实验步骤: 1、系统发育分析: 1.1获取未知序列的同源序列,这里选择视黄醇蛋白家族中的1a4y 蛋白序列片 段 1.1.1利用 blastp 在 swissprot 数据库中搜索序列相似程度≥30%的序 列。结果找到8条符合要求的同源蛋白序列。 1.1.2将所得同源序列以 fasta 格式保存在同一个文件里。 1.1.3更改每条序列的名称:序列简称_物种。 1.2多序列比对 利用 Clustalw 软件,进行多序列的比对,结果以 PHYLIP(因后面要要用到

PHYLIP 软件)格式输出。 1.3系统发育树的构建及评估 1.3.1这里选择 MEGA 软件和 NJ、MP 算法。首先要进行格式转换:File -> Convert to MEGA Format。具体说来…其次利用 NJ 法构建进化树:Phylogeny->Construct phylogeny ->Neighbor Joining。调节参数并观察构建结果。最后便是评估进化树: Phylogeny-> Bootsrap Test of Phylogeny ->Neighbor Joining。同样的方法,用 MP 算法构 建并评估进化树。 1.3.2 PHYLIP 软件构建 ML 进化树。将 Clustalw 软件多序列比对得到的.phy 格式的结果输出到 proml.exe 程序,改变参数 o(选择 outgroup) ,其他默认,生成进化树。 这里要注意到 PHYLIP 程序默认的输出文件名为 outfile 或 outtree,所以要注意改变输出文 件名。利用 PHYLIP 软件评估进化树时,较为耗时。首先是利用 seqboot.exe 生成一个随机 序列,然后将该随机序列输入到 proml.exe 程序中,改变 M 参数,datasets 选择100,可得 到多个随机树。最后将得到的这多个随机树输入到 Consensus.exe 程序当中进行汇总,生 成一致树。观察其可靠的进化分支。

系统发育分析 Mark A. Hershkovitz and Detlef D.Leipe National Center for Biotechnology Information National Library of Medicine National Institutes of Health Bethesda,Maryland

系统发育学研究的是进化关系, 系统发育分析就是要推断或者评估这些进化关系。 通过系统 发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述了同 一谱系的进化关系,包括了分子进化(基因树) 、物种进化以及分子进化和物种进化的综合。 因为”clade”这个词(拥有共同祖先的同一谱系)在希腊文中的本意是分支,所以系统发育学 有时被称为遗传分类学(cladistics)。在现代系统发育学研究中,研究的重点已经不再是生物 的形态学特征或者其他特性,而是生物大分子尤其是序列。 尽管本章的目的是想描述一个万能的系统发育分析方法, 但是这个目标过于天真, 是不可能 实现的(Hills et al.,1993)。虽然人们已经设计了大量的用于系统发育的算法、过程和计算机程序,这些方法 的可靠性和实用性还是依赖于数据的结构和大小, 因此关于这些方法的优点和缺点的激烈争 论成了分类学和系统发育学期刊的热门课题(Avise, 1994:Saitou, 1996; Li, 1997; Swofford et al., 1996a) 。Hillis 等人(1993)曾经极其简单地介绍过系统发育学。 比起许多其它学科而言, 用计算的方法进行系统发育分析很容易得到错误的结果, 而且出错 的危险几乎是不可避免的; 其它学科一般都会有实验基础, 而系统发育分析不太可能会拥有 实验基础,至多也就是一些模拟实验或者病毒实验(Hillis et al., 1994) ;实际上,系统发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法 再现了。 尽管现在的系统发育分析的程序存在着很多缺陷, 许多生物学著作中仍然大量引用 系统发育分析得到的结论,这些结论的源数据只是简单地应用了某一个系统发育的分析程 序。只有在很偶然的情况下,在应用某些软件处理数据时受到的困难会少一点,但是在概念 上理解这些程序是如何处理数据仍然是个难题。 本文中关于系统发育分析方法的指导有如下一些目的。 首先, 我们要介绍一个概念性的步骤, 这个步骤包含了当前在对生物序列进行系统发育分析时最广泛使用的方法中应用到的一些 最重要的原理。 这个步骤认为, 所有的系统发育方法都刻画了一个模型去模拟真实的进化过 程, 然后假定程序发现的序列之间的差异是模拟的进化结果, 而这个模型本身就包含了方法 中固有的假定。 对于一个好的使用的系统发育的分析方法, 刻画一个正确的模型同描绘一个 正确的进化树是同等重要的。另外,我们还将讨论一些比较通用的方法所刻画的模型,并且 讨论一下这些模型是如何影响对数据组的分析的。 最后, 我们会针对系统发育模型和进化史 的推论,提供一些具体方法应用的例子。 系统发育模型的组成 系统发育的建树方法都会预先假定一个进化模型(Penny et al., 1994) 。比如,所有广泛使用的方法都假定进化的分歧是严格分枝的,因此我们可以用树状 拓扑发生图来描述已知的数据。 但是在一个给定的数据组中, 因为存在着物种的杂交以及物 种之间遗传物质的传递,这个假定很可能会被推翻。因此,如果所观察的序列并非是严格遗 传的话,大多数系统发育方法就会得到错误的结果。 系统发育方法中固有的模型会导致一些额外的假定: 1. 序列有指定的来源并且正确无误(Helbig and Seibold, 1996; Hershkovitz and Lewis, 1996; Soltis et al., 1997) 。 2. 序列是同源的(也就是说,所有的序列都起源于同一祖先序列) 这些序列不是 ; “paralog“(paralog 指的是一个祖先序列通过复制等方法在基因组中产生的歧化序列)的混

合物。 3. 序列比对中,不同序列的同一个位点都是同源的。 4. 在接受分析的一个序列组中,序列之间的系统发育史是相同的(比如,序列组中不存 在核序列与细胞器序列的混合) 。 5. 样本足以解决感兴趣的问题。 6. 样本序列之间的差异代表了感兴趣的宽组。 7. 样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。 还有一些假定,在某些方法中是默认的,但是在另外一些方法中是可以修正的: 3. 样本序列是随机进化的。 4. 序列中的所有位点的进化都是随机的。 5. 序列中的每一个位点的进化都是独立的。 许多公开发表的系统发育分析结果的错误通常都是因为违反了上述假定, 特别令人恼火的是 现有的方法并不能察觉对基本假定的违反。每一个序列组都必须根据上述基本假定进行评 估,并且同分析过程相协调。下面我们将会描述分析过程。 系统发育数据分析:比对,建立取代模型,建立进化树以及进化树评估 对 DNA 序列进行系统发育分析的四个主要步骤是比对,建立取代模型,建立进化树以及进 化树评估。一般来说,执行这四个步骤的计算机程序都是相互独立的,但是他们都是进行系 统发育分析的有机部分。 当前的讨论主要集中在分析 DNA 序列的方法上,这些方法基本上(不全是)仍然是通过碱 基和密码子的替代来考察序列的差异; 这个方法同样应用于对蛋白质序列的分析, 但是由于 氨基酸的生物化学多样性,我们必须引入更多的数学参数。因此,下面讨论的适用于核苷酸 碱基的方法同样适用于氨基酸和密码子, 而关于蛋白质的一些特殊问题和程序会在别的地方 得到讨论(Felsenstein, 1996) 。 因为建树的标准在一定程度上依赖比对和取代模型, 因此一开始就应该介绍这些方法, 这些 介绍非常必要。三种主要的建树方法分别是距离、最大节约(maximum parsimony, MP)和最大似然(maximum likelihood,ML) 。距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差 异决定进化树的拓扑结构和树枝长度。 最大节约方法考察数据组中序列的多重比对结果, 优 化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。 最大似然方法考察数 据组中序列的多重比对结果, 优化出拥有一定拓扑结构和树枝长度的进化树, 这个进化树能 够以最大的概率导致考察的多重比对结果。这些方面将会在后面详细讨论。 建立数据模型(比对) 系统发育的序列数据通常会进行多重比对, 也就是说, 在系统发育的有关文献中通常会把那 些单独的比对好的碱基所占据的位置称作位点; 在进行系统发育的理论讨论时这些位点等同 于特征符,而占据这些位点的真实的碱基或者空位被称为特征符状态;但是也有例外, STATALIGN 程序(Thorne and Kishino, 1992)在进行系统发育分析时不会进行多重比对,它使用原始的未比对过的序 列。 多重比对在第七章中有详细讨论,在这里我们只讨论与系统发育分析有关的多重比对方法。 对准的序列位点将会被应用于系统发育分析,但是这只能描述一个先验的系统发育的结论, 因为位点本身(不是真实的碱基)都是假定为同源的(Mindell, 1991; Wheeler, 1994) 。因此,出于系统发育的目的,比对程序只是系统发育分析的一部分。 建立一个比对模型的基本步骤包括: 选择合适的比对程序; 然后从比对结果中提取系统发育

的数据集, 至于如何提取有效数据, 取决于所选择的建树程序如何处理容易引起歧义的比对 区域和插入----删除序列(即所谓的 indel 状态或者空位状态) 。 多重比对程序 多重比对程序有如下一些属性: 计算机依赖性:无依赖;部分依赖;完全依赖。 系统发育调用:无调用;先验调用;递归调用。 比对参数评估:先验评估;动态评估;递归评估。 比对特征:基本结构(比如序列) ;高级结构。 数学优化:统计优化;非统计优化。 在系统发育分析研究中,一个典型的比对过程包括:首先应用 CLUSTAL W 程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征选项: 、 (1) 部分依赖于计算机(也就是说,需要手工调整)(2) ; 、需要一个先验的系统发育标准(也就 是说需要一个前导树)(3) ; 、使用先验评估方法和动态评估方法(推荐)对比对参数进行评 估; 、对基本结构(序列)进行比对(对于亲水的氨基酸,推荐引入部分的二级结构特 (4) 征)(5) ; 、应用非统计数学优化。这些特征选项的取舍都依赖于下面将要描述的具体的系统 发育分析方法。 计算机依赖型 提倡进行完全的计算机多重比对的人常常有这样的依据, 他们认为手工比对通常都是含混不 清的(Gatesy et al., 1993) 。MALIGN(Wheeler and Gladstein, 1994)和 TreeAlign(Hein, 1990, 1994) 程序都试图在根据系统发育功能而优化比对的时候实现完全计算机化, 尤其是试图通 过初步的多重比对而优化出一个最大节约树(MP tree) 。一般来说,只有当我们假定计算机程序能够进行正确的比对的时候,我们才会实行完 全的计算机处理。之所以还提倡进行手工比对(比如,Thompson et al., 1994) ,是因为现在的比对算法和程序还不能满足系统发育分析的需要。 系统发育标准 许多计算机多重比对程序(比如 CLUSTAL, PileUp,ALIGN in ProPack)根据明确的系统发育标准(一个前导树)进行比对,这个前导树是由双重比对得 到的。但是 SAM(Hughey et al., 1996)和 MACAW(Lawrence et al., 1993)程序在进行多重比对时并不引入明确的系统发育 标准,虽然这些程序也可以模拟系统发育过程操作参数。 如果在进行系统发育分析的时候, 比对中引入了前导树, 那么通过这个比对推导出的进化树 逻辑上应该同前导树的拓扑结构相同。由 CLUSTAL 比对得到的前导树(如图 9.1)将会被 转化成 PHYLIP 树的文件格式,然后输入到画树程序中,这些画树程序包括 TreeTool(X windows), TreeDraw(Macintosh), PHYLODENDRON(Macintosh), TREEVIEW(Macintosh, Microsoft Windows) 或者 PAUP(图 9.1;Macintosh, Microsoft Windows)的画树工具。按道理,我们应该回过头来为 CLUSTAL 比对再指定一个前导树,但 是在实际操作中我们并不会这么做。有些程序(比如 TreeAlign and MALIGN)为了得到优化的比对和系统发育树,程序本身就设计了交叉(同步)递归优化的 算法。理论上,能够解决比对----系统发育难题的同步优化算法或者配套算法应该是存在的, 但是递归算法必须冒一定的风险,它很可能会导致一个错误的或者不完整的结果(Thorne and Kishino, 1992) 。因此,根据比对结果建立进化树之后,必须考虑另外的可能性,也就是说,如果根

据其它的比对结果得到一个并不是最优化的进化树, 这个次优化的进化树是不是更能够满足 研究的需要。 比对参数评估 在比对中会出现一些序列区域,其长度是可变的,如何处理这些区域中 indel 状态的位点是 最重要,这取决于进化模型的所有要素(比如,包括核苷酸转换/颠换速率) ,而且相关的参 数在前导树与比对推导的进化树中应该保持一致。比对参数应该随着进化的分叉动态变化 (Thompson et al., 1994) 只有这样才能保证碱基错配的几率能够满足序列趋异的需要; , 比对参数应该随 时调整(Thompson et al., 1994, Hughey et al., 1996) ,以防止引入过多的近似序列而导致比对序列的信息量不足,可以通过降低近似序列 的比对分值权重来防止这种情况。CULSTAL 程序兼顾了这两种情况(参数动态变化) ,而 SAM 程序引入了序列权重。 利用基本结构或者高级结构进行比对 根据二级或者三级序列结构进行比对, 比起直接利用一级序列进行比对的可信度要好, 因为 在同源性评估中,人们一直认为复杂结构的保守性高于简单特征(核苷酸,氨基酸)的同源 保守性,而且,立足于复杂结构的比对程序还可以搜索到一些特殊的关联位点,这些位点是 进化的功能区域。实际上,基于系统发育的结构多重比对并没有将问题简化,也就是说,序 列比对必须服从结构进化, 而结构进化则同系统发育保持一致。 有一个探索式的手工程序 (如 图 9.2) ,是用来对核糖体 DNA 进行结构比对的(Gutell et al., 1994) 这个程序要考察相关取代的样式, , 但是相关性必须通过系统发育树中的多个独 立的补偿性突变推导得到(cf. Harvey and Pagel, 1991) 。 数学优化 有些比对程序(比如,MACAW, SAM)根据一个统计模型进行优化,但是这些统计同系统发育模型的关系并不清楚。仅仅 根据一个系统发育模型是没有办法比较多重比对方法的优劣的。 总结:对于系统发育分析,最好的比对程序是什么呢? 对于一个给定的系统发育问题, 如果预先不知道其中的系统发育关系, 就很难知道最适用的 比对方法(cf. Morrison and Ellis, 1997) 。一般来说,我们并不赞成直接把计算机比对结果提交给建树程序,因为建树程序不 能发现比对的错误;尤其是那些包含在比对程序包中(比如,CLUSTAL and TREE in ProPack)的建树程序,特别要注意这一点(Feng and Doolittle, 1996) ,因为在这些程序包中的建树程序更加不严格。我们必须通过分子结构�功能和碱 基取代过程作出一些假定,并且结合另外一些独立的系统发育证据,对整个比对进行考察。 从比对中提取系统发育数据集 在某些比对中,比对长度是可变的,这时,系统发育数据集同比对就不会完全吻合;即使在 一些长度不变的比对中,数据集也可能同比对结果不一致--举一个很简单的例子,有时候我 们只需要处理第一个和第二个密码子位点, 就不需要全部的比对结果, 这个话题我们在后面 讨论取代模型的时候还会涉及到。 如果比对中出现可变长度,我们通常会根据比对的不确定性程度和处理 indel 状态的原则这 两个标准对比对结果进行取舍,从中选择所需的系统发育数据集;其中针对 indel 状态的处 理方法取决于建树方法以及从比对结果中发掘出的系统发育信息, 最极端的方法是把包括空 位在内的所有 indel 位点从比对中清除出去,在分析时不加考虑(cf.

Swofford et al., 1996a) 这个方法的好处是可以把序列的变化包容在取代模型中,而不需要特别的模型来处 , 理 indel 状态,但是它的缺点也很明显:indel 区域的系统发育信息完全被忽略了。 在提取数据集时保留 indel 区域但是忽略所有的空位分值,将会保留包括空位在内的位点碱 基变化信息。某些长度可变区域在部分序列或者全部序列中很难对准,在这种情况下,这些 难以对准的碱基的分值应该清零;这个方法存在很大的缺陷,MP 和 ML 建树方法会不加考 虑地把这些清零的或者被忽略的分值理解为零分歧, 但是实际上隐藏在这些分值下面的实际 的数据(不管是空位还是难以对准的碱基) ,一般来说,反映出的分歧度都很大。PAUP 4.0 中的距离建树方法(将在下文描述)允许通过非空位区域外推得到空位区域的距离。 最大节约(MP;见下)是允许把可比对的空位合并,并将其视为特征符的唯一方法;可以 通过两种方式达到目的: 作为一个附加的特征符状态 (第五种核酸碱基或者第二十一种氨基 酸) ,或者作为一套独立于碱基取代的特征符集。当空位占据了不止一个位点的时候,前一 个方法行不通, 因为每一个空位位点都会被统计为一次独立的特征符状态变化。 当比对的序 列的局部出现很好的可比对的空位的时候, 后一种方法非常有用。 我们可以把一套空位特征 符附加到比对序列数据集中, 也可以用额外的碱基程序在适当的位置对空位计分, 但是在计 分的时候,空位位点中只有一个作为空位计分,其余的将会被忽略。PAUP 将会执行这个方 法。 对于某些比对而言,比对程序会忽略所有的空位分值或者忽略所有低于预设值的空位分值; 但是,还没有任何一种程序会忽略单个序列的单个位点。如果比对在序列组内部相当明确, 但是处身其中时却不太清楚,此时必须对比对做“手术”,确保同序列组相关的明确的信息被 保留,而除去模糊的信息。 图 9.3 给出了一个比对“手术”的例子。在空位区域,我们必须作出决定:在可供选择的比对 中,哪一个更加合理,尤其重要的是,哪一个更加适合于建立进化树分析。如果手工解决比 对的不确定性,就必须考虑系统发育关系、取代过程(比如,转换和颠换)和碱基组成;在 这个阶段,用系统发育证据解决不确定性非常合理。在倾向于变长的序列区域,关系非常疏 远的序列和序列组的比对就可以侧向展开(就是说,引入人工空位,并且忽略分值) ,最终 的结果使得只有关系很近的序列区域对准在一起。 某些序列中的某些位点虽然对准了, 但是 并不确定, 他们的分值可以在计分时忽略; 这个方法的优点是可以保留同这些序列相关的明 确信息,缺点是最大节约和最大似然的建树方法会把这些“缺失”的分值看做是零分歧。 由 MALIGN(Wheeler and Gladstein, 1994)和 TreeAlign 得到的比对不需要在比对后用这些方法中的建树方法进行数据修饰,即 使这些比对中仍然有一些同样类型的不确定性, 这些不确定性在另外一个程序进行分析时需 要修正。如前所述,这些程序会根据由比对得到的最好的 MP 系统发育进化树,对比对参数 进行递归优化。MALIGN 还会利用一套空位为代价,对以连接的可供选择的比对为基础的 建树方法进行优化;在这个方法中,在最有可能的几种比对中出现的比对特征将会被加权。 这就提供了一种方法, 可以捕获序列分歧的数量 (在取消不确定的比对区域的分值的时候这 些分歧是被忽略掉的) ,因为这些区域的所有可能的比对方式都将显示这些区域的最大的序 列分歧。 处于不确定的比对区域中的位点很可能不是同源的, 因此在进化树中需要加入一些 噪声干扰或者偏向。 决定取代模型 对于取代模型,应该给予同比对和建树同样的重视。就像前面暗示的那样,取代模型既影响 比对,也影响建树;因此需要采用递归方法。现在,对于核酸数据而言,可以通过取代模型 中的两个要素进行计算机评估(Swofford, 1997) ,但是对于氨基酸和密码子数据而言,没有什么评估方案(Felsenstein,

1996) 。其中一个要素是碱基之间相互取代的模型;另外一个要素是序列中不同位点的所有 取代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量(比如,位点特异性或 者系统特异性取代模型)进行评估,同样,现有的建树软件也不可能理解这些复杂变量。 碱基取代速率模型 一般而言,生物化学性质相近的碱基之间的取代频率较高; DNA 中, 在 四种转换 (Aà G, Gà A, Cà T, Tà C)的频率比八种颠换(Aà C, Aà T, Cà G, Gà T, 以及前四种的反向取代)的频率要高;这些偏向会影响两个序列之间的预计的 分歧。 各个残基之间的相对取代速率一般由方阵形式列出;对于碱基而言,行数和列数都是 4,对 于氨基酸而言,行数和列数都是 20(比如 PAM 方阵) ,对于密码子而言,行数和列数都是 61(除去了中止密码子) 。非对角线元素对应于一个碱基变为另一个碱基的相对代价,而对 角线元素则代表不同序列拥有同一个碱基的代价。 这些代价值可以固定为先验的代价表, 以确保建树方法在计分时对每一种取代都使用确定的 代价值。固定的代价方阵是典型的静态权重方阵,MP 建树方法(如图 9.4)使用的就是这 种方阵。如果使用这种权重,那么这个方法就会被称为“加权节约”。又如,ML 建树方法, 代价值是由即时的速率方阵得到的,这个方阵(如图 9.5)代表了各种取代可能会发生的概 率的 ML 估计值。MP 权重方阵只涉及简单的算术,而应用距离和 ML 速率方阵则可以引入 复杂的代数。为了避免盲目使用不适当的方法,建议大家熟悉其内部的基本原理(见 Li, 1997, and / or Swofford et al., 1996a) 。 实际上,“前进”和“反向”取代速率被认为是相同的;这个取代模型被称为是“时间可逆”;这 个模型拥有“静态”的性质,因为在所有的碱基频率中没有预知的变化。在系统发育的特殊历 史中,不同序列中的碱基频率不同表明,前进和反向速率实际上可能会不同;而传统的取代 权重或者速率方阵不能包容这个“非静态”环境; 本节的结尾将讨论一个基于非静态取代模型 (“log�det”)的建树方法,这个方法将会提供一个可供选择的计算方法。 通常, 特征符状态的权重方阵都会或多或少地通过观察进行过估值, 当然也可以从速率矩阵 衍生得到。比如,如果假定两个转化的其中一个,发生的频率是每个颠换的两倍,那么据此 就可以确定一个权重方阵,比如,A�G 的转换代价为 1,而 A�T 的颠换代价为 2(图 9.4)(节约方法规定对角线元素值,或者说是不同序列中拥有相同碱基的代价值为零。这 。 是节约方法的一个缺点��详见下文)在随后的建树步骤中,这套假定会把颠换的总 数降至最低值,而力求把那些主要差异是转换的序列集中在一起。 任何一种“时间可逆”的核苷酸取代模型都可以用图 9.5 所示的方阵刻画,只是其中一个速率 和其它速率的差异;在任意组合中,最多可以达到只有六个参数,其中每一个速率参数都是 独立的(Swofford et al., 1996a;Li, 1997) 。如果平衡的碱基频率不相等,则需要额外的参数;如果平衡的碱基频率不相等,但 是却假定这些频率相等,那么系统发育进化树的最终结果将会出错(Li, 1997) 。 侧线(paralinear) (Lake, 1994)和“log�det”(Lockhart et al., 1994)做了一些修正(见 Swofford et al., 1996a)来满足非静态环境的需要;这个方法只适用于距离进化树的建立;在这个方法中, 对于每一个序列匹配,各种类型和变化方向的原始取代的数目都会计算在一个 4×4 的方阵 中(如图 9.6) 。每个方阵都会有一个代数行列式,这个行列式的 log 值是评估序列差异性的 一个要素,因此被称为“log�det”。对那些拥有各种各样的碱基频率的序列进行双重比较,

就会得到各种各样的方阵,也就会得到各种各样的行列式值;因此,在评估序列两两之间的 距离的时候, 就要受到序列两两之间的行列式值的影响, 而且序列两两之间的比较允许适用 不同的取代模型,因此沿着系统发育进化树的不同树枝,将会产生多元化。Log�det 尤 其对位点之间的速率差异(见下文)敏感,因此,碱基频率的偏向可能只存在于那些承受变 化的位点。 位点内速率差异模型 除了取代模型的多元化以外, 一个序列中各个不同位点之间取代速率的差异也会对建立进化 树的结果产生很深远的影响(Swofford et al., 1996a) ;关于位点之间的速率差异(或者叫做位点异质性) ,有一个最明显的例子,就是在 一个编码序列中,三联体编码的位点差异:在三联体编码中,第三个编码位点比另外两个位 点更加容易发生变化;正是出于这个原因,许多系统发育分析方法在分析编码序列时,都会 把第三个编码位点排除在外;但是在某些情况下,速率差异模型会更加敏锐(比如,对应于 蛋白质或者 rRNA 的保守序列) 。 对位点差异的取代速率进行估值的方法有非参数化模型(W.M. Yang et al., 1996) ,不变式模 型和 gamma 分布模型(Swofford et al., 1996a) 。非参数化方法源于特异位点的相对速率的范畴;这个方法可以在 MP 建树方法中使 用, 只要根据相对的变异频率对特异位点进行简单加权就可以了, 当然进行加权时需要有关 于真实进化树的预备知识; 这个方法同样也可以适用于 ML 建树方法, 但是在计算上被认为 是不切实际的(W.M. Yang et al., 1996) 。不变式模型对一定比例的位点进行估值,这些位点并不能自由变化;剩余的位点假 定为等概率变化。至于 gamma 模型方法,它假定一个给定的序列变化的概率是遵守 gamma 分布规律的,据此指定位点的取代概率;gamma 分布的形状(有形状参数 α 描述)描述了 一个序列中各个位点的取代频率的分布(Swofford et al., 1996a, p. 444, Figure 13; cf. Li, 1997, p. 76, Figure 3.10; 注意尺度差异) 。在一个混合方法中,可以假定一部分位点是不变的,而剩余的位点则是按 照 gamma 分布变化的。 实际上,gamma 修正可以是连续的,离散的或者自离散的(W.M. Yang et al., 1996) 。连续 gamma 的意思是各个位点沿一条连续的概率曲线变化;目前,这个方法在绝大 多数情况下无法计算。离散 gamma 逼近方法指定各个位点的概率,使得这些(大量的)概 率值逼近 gamma 曲线。自离散模型假定相邻的位点的变化速率是相关联的;许多组位点被 分为许多类,其中每一类中的位点的变化速率可能被假定为常量或者异类值。 进化树建立程序使用各种各样的位点速率差异修正方法。对于核酸数据,PAUP 4.0 在单独或者混合使用时间可逆的距离建树方法和最大似然建树方法时,既使用不变式 gamma 模型,也使用离散的 gamma 模型;在使用 log�det 距离建树方法时,使用不变式 模型 (见下) 对于核酸, 。 氨基酸和编码子数据, PAML 使用连续的, 离散的和自离散的 gamma 模型。对于核酸和氨基酸数据,PHYLIP 使用一种离散的 gamma 模型。 究竟使用哪一种取代模型呢? 在一个给定的序列集中, 即使一个取代模型中的任何参数都可以证明是很有判断力的, 但是 最好的模型并不一定总是拥有最多的蚕室;相反,参数越少,模型越好,这是因为对每一个 参数进行估值都会引入一个相关的变量, 而每引入一个附加的参数维度, 都会使得整体的变 数增加,有时候甚至会对模型起抑制作用(见 Li, 1997: p. 84,

表 4.1) 。对于一个给定的序列比较,如果模型只有两个参数,那么碱基差异的总和要被划分 为两个类别;如果模型有六个参数,那么碱基差异的总和要被划分为六个类别;很明显,如 果分为六个类别, 那么每一个类别中的位点样本数目将会很小, 很可能小得无法进行合理地 估值。 PAUP 的“描述树”特征是对 DNA 序列的取代模型进行规范的一个较好的策略,它使用似然 方法同时评估六个可逆的取代速率、 gamma 分布的 α 形状参数和不变的位点的比例 (图 9.7) 。 这些参数可以通过相等的或者指定的碱基频率进行估值。 通常, 任何一个合理的系统发育进 化树(比如,很容易就可以得到一个相邻连接的进化树)都适用于这个程序,因为很明显, 对参数的估值在很大程度上受到特征符模式的影响,而不是进化树的拓扑结构(Swofford et al., 1996b) 。这个估值程序对于 50 个序列而言,并不会耗费太多的时间。如果序列较多,或者 时间较紧,可以对试验的进化树进行精简,在保留全部的系统发育范围和结构的同时,减少 分类数目。 通过这些估算的取代参数, 我们可以通过比较由较多参数和较少参数分别评估得 到的似然分值,决定一个简化的模型是否合理(比如,六个取代类别是否可以减少到两个) 。 有时候,α 参数和不变位点的比例可以相互替换,所以我们应该比较每一个单独使用时得到 的似然分值和两个同时使用时得到的似然分值。注意,和 MP 以及 ME 不同,用不同的参数 值得到 ML 分值可以直接比较(Swofford et al., 1996b) 。 对于编码蛋白质的 DNA 序列,根据样本的分歧程度,有时候很明显地,有用的变化基本上 都是第一位和第二位的编码位点,而在整个数据集中,第三位点通常都是随机的,或者第三 位点变化而第一位点和第二位点不变。 尽管除去“无用”位点可以提高剩余位点的不同速率的 估值精确度,上面所述的程序还是要对这个速率差异进行修正。对于节约进化树的建立,我 们有时候会把随机的第三位点从分析中除去, 因为这些位点只会引入噪声, 如果碱基频率不 相等,这些位点还会引入错误。 怎么样才能确定数据集中的非静态因素是否会成为一个问题呢?最简单的方法可能就是去 比较 PAUP 中两种通过不同方法得到的建树结果和进化树评估结果, 一种方法是使用时间可 逆的方法,另一种方法是 log�det 距离建树方法。下面的章节中将会涉及到这些程序。 还没有什么好的计算方法,能够直接从序列数据中评估非静态因素的影响。PAUP 中有一个 命令,会列出所有序列的碱基频率。这个程序应该使用排除不变位点(Exclude Constant Sites)的选项。序列中的碱基频率可以很直观地比较出来。数据文件应该指定 gapmode=missing,或者 PAUP 要把一个空位特征符计算为一个碱基变化。碱基频率的命令 还要对数据执行一个“chi 平方(chi�square)”测试,但是这个测试并不切实际,因为它 假定数据是从一个随机样本中提取的, 而结果就会假定所观察到的不相等是相互独立的而不 是系统发育结构的结果。一个毫无意义的 chi�square 分值并不能除去非静态因素,而一 个有意义的分值很可能会进一步证实非静态因素。PAUP 中的碱基组成命令已经被用来证 明:在被子植物和绿藻的 5.8S rDNA 序列中,两者之间变化比较大的位点集中存在中碱基偏好,但是并不一定在某个序列 上产生变化(Hershkovitz and Lewis,

系统发育分析 2(2007-06-20 22:51:59)转载标签: 系统发育分析

建树方法 现有的软件中所采用的建树方法已经在某些著作(Saitou, 1996; Swofford et al., 1996a; Li, 1997)中有很详尽的讨论;这部分只是简单地描述一些最常用的方法。建树方法可以分为两 类,每类有两种不同的方法: 基于算法的和基于标准的。 基于算法的建树方法根据一系列的步骤得到一个进化树; 而基 于标准的建树方法则是根据一些优化的功能对可选的进化树进行评估。相邻连接方法(NJ) 是一个纯粹的基于算法的建树方法, 这个方法只得到一个进化树, 这个进化树拥有令人满意 的性质,它的距离附加值接近或者是非常优化的(见下) ;而一个基于标准的距离建树方法 将会根据进化树的附加值优化的标准,对所有可能的进化树(不管这些进化树是否产生)进 行评估。 基于距离的和基于特征符的。 历史上的和现有的许多关于系统发育的讨论描述了各种各样 的基于距离的和基于特征符的建树方法的效用(比如,Saitou, 1996: Li, 1997) 。距离建树方法根据一些尺度计算出双重序列的距离,然后抛开真实数据,只是根 据固定的距离建立进化树; 而基于特征符的建树方法在建立进化树时, 优化了每一个特征符 的真实数据模式的分布,于是双重序列的距离不再固定,而是取决于进化树的拓扑结构。最 常用的基于特征符的建树方法包括 MP 和 ML。 距离建树方法 距离建树方法根据双重序列比对的差异程度(距离)建立进化树。如果所有的起源分歧事件 都很精确地记录在序列中(Swofford et al., 1996a) ,那么距离建树方法将会重构真实的进化树。然而,当序列突变达到饱和时,分歧程 度就会达到上限。 一对分歧序列的其中之一在某个特定位点发生突变后, 后续的突变不管发 生在哪一条序列,都不会再造成更多的差异。实际上,后续的变异很可能会使得前一个位点 恢复成相等的状态,从而屏蔽掉前一个突变,因此,绝大多数基于距离的建树方法都会针对 这样“不可见”的替换进行修正。在实际操作中,使用的速率方阵都会很有效地假定:在所观 察的相等的碱基对中,实际上存在一定比例的位点,这些位点经受了多次突变,而且,随着 整个序列差异程度的增加,这些位点的比例也在增加。有些程序(至少是随意地)会计算出 不正确的距离进行,比方说,MEGA 程序(Kumar et al., 1994)只针对密码子和氨基酸数据会计算出错误的距离;除非序列的整体差异程度很 小,这个程序实质上将会保证给出错误的结果。 双重序列差异使用最大似然方法的取代速率计算得到。 最常用的距离建树程序使用的模型局 限于时间可逆模型,只包含很有限的几个取代模型;但是 PAUP 4.0 基本上会测试时间可逆模型的所有变化,包括用最大似然方法从数据中评估得到的实际模 型,以及针对非静态数据的 log�det 距离建树方法所得到的模型。 与最大似然方法相比,距离建树方法的计算强度很小,但是可以使用序列进化的相同模型, 这是它们最主要的优点。 这个方法的缺点是屏蔽了真实的特征符数据。 最常用的距离建树方 法是“不加权配对组算术方法”(UPGMA,unweighted pair group method with arithmetic mean) 、相邻连接方法(NJ,neighbor joining)和对距离进化树的附加值进行优化的方法,包括最小进化方法(ME,minimum evolution) 。有些方法被不止一个系统发育软件包引用,但是在使用时不一定会使用相同的 指定参数和(或)进化树优化特征(比如,树枝交换��见下) 。

不加权配对组算术方法(UPGMA,unweighted pair group method with arithmetic mean) UPGMA 是一种聚类或者说是分类方法��它按照配对序列的最大相似性和连接配对 的平均值的标准将进化树的树枝连接起来。它还不是一种严格的进化距离建树方法(Li, 1997) 。只有当序列分歧是基于一个分子钟或者近似等于原始的序列差异性的时候,我们才 会期望 UPGMA 会产生一个拥有真实的树枝长度的准确的拓扑结构(ultrametric; Swofford et al., 1996a) 。正如前面讨论的那样,在实际问题中很少会遇到这种情况。 相邻连接方法(NJ,neighbor joining) 相邻连接算法在距离建树中经常会用到, 而不会理会使用什么样的优化标准。 完全解析出的 进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的, 分解的步骤是连续不断 地在最接近(实际上,是最孤立的)的序列对中插入树枝,而保留进化树的终端(图 9.8) 。 于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方 法相对而言很快,也就是说,对于一个 50 个序列的进化树,只需要若干秒甚至更少。 Fitch�Margoliash(FM) Fitch�Margoliash(FM)方法设法通过把所有可能观察到的距离相对于进化树中所有可 能 的路 径长度 的偏 差的平 方极 小化, 将进化 树中 观察 到的双 重距离 的合 适度 极大化 (Felsenstein, 1997) 。有一些变量,在怎样对错误进行加权的处理上不太一样。对变化的估值并非是完全 独立的,因为所有的进化树内部的树枝中存在的错误都至少被计算了两次(Rzhetsky and Nei, 1992) 。 最小进化方法(ME,Minimum Evolution) 最小进化方法先使用同 FM 相同的方式计算出路径长度, 然后根据路径长度优化出最短的进 化树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化 (Rzhetsky and Nei, 1992; Swofford et al., 1996a; Felsenstein, 1997) 。同 FM 方法不同,ME 方法并不使用所有可能的双重序列距离和所有可能的相关的 进化树路径长度, 而是先根据到外层节点的距离固定进化树内部节点的位置, 然后根据这些 观察点之间的最小计算误差,对内部的树枝长度进行优化。于是这个方法声称它消除了 FM 计算的依赖性。 究竟哪一个基于距离的建树程序是最好的 ME 和 FM 似乎是最好的程序程序, 它们在模拟研究中所取得的成绩几乎相同 (Huelsenbeck, 1995) 。ME 在计算机程序中的应用越来越广泛了,包括 METREE(Rzhetsky and Nei, 1994)和 PAUP 都在使用 ME。对于蛋白质数据,PHYLIP 中的 FM 程序提供了最多的时间 可逆取代模型,但是没有对位点内部的取代速率差异进行修正。MEGA(Kumar et al., 1994) METREE 软件包包括一个针对蛋白质的 gamma 修正, 和 但是只有同一个原始 (“p� 距离”)的分歧模型(没有距离修正或者偏好修正)结合时才进行修正,这种方法只有当分 歧很小时才合理(Rzhetsky and Nei, 1994) 。MEGA 也计算同义的和异义的位点的分离距离,但是只有当没有取代或者碱基频率 偏好的时候,以及没有对位点内部的速率差异进行修正的时候,这个方法才合理。因此,对 于绝大多数数据集而言, 对核苷酸数据应用一个更加理想的模型可能会比 MEGA 方法要好。 模拟研究指出, 对于一个大范围的进化树形状空间, UPGMA 的可操作性很差 (Huelsenbeck, 1995) 。我们并不赞成使用这种方法,而之所以在这里会提及这个方法,是因为在现在的出 版物上经常会出现 UPGMA 的应用,这一点可以由当前的出版物中出现的 UPGMA“基因进

化树”证明(Huelsenbeck, 1995) 。 很显然,NJ 是最快的程序,并且所产生的进化树同 ME 进化树相比,虽不能说一样,但也 已经非常相近了(Rzhetsky and Nei, 1992; Li, 1997) 。但是,NJ 只产生一个进化树。根据数据结构,有大量不同的进化树可能和 NJ 进化 树一样好,甚至比 NJ 进化树好得多(Swofford et al.1996a) 。我们中的一个(MAH)和 D.Hillis(个人通讯)已经各自独立地得到了一些(虽 然很少)数据集,对于这些数据集,NJ 给出的进化树很糟糕;但是使用 PAUP 方法中的“最 接近(closest)”选项后,进行逐步加总,得到了一个较好的距离进化树(Swofford, 1997) 。 特征符建树方法 除了在所有的分析步骤中都会用到特征符数据以外,基于特征符的建树方法毫无共同之处。 这就使得我们能够评估一个比对中每一个碱基位点对其它所有的碱基位点的依赖性。 最常用 的基于特征符的建树方法是最大节约方法和最大似然方法。 最大节约方法(MP,Maximum Parsimony) 最大节约方法是一种优化标准,这个标准遵循“奥卡姆剃刀原则(Occam’s razor)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。在实际 应用中,MP 进化树是最短的�也是变化最少的进化树,根据定义,这个进化树的平行变 化最少,或者说是同形性最低。MP 中有一些变量与特征符状态改变的可行方向不尽相符 (Swofford et al., 1996a) 。 为了能够包容取代偏好,MP 必须加权;比如,颠换的变换相对于转换(见上文)被加权。 进行加权的最简单的方法就是建立一个加权步骤方阵,在这个方阵里,权重用速率的倒数, 这个速率是由上面描述的 ML 方法评估得到的。 步骤方阵加权可能会极大地减慢 MP 的计算 速度。 如果比对内部的位点确实存在这速率差异,那么 MP 方法就会执行得很不好(Huelsenbeck, 1995) 。对于这个问题,还没有什么很好的解决方法。有一个方法,就是对数据集进行修改, 使得最终分析的数据集中只包括那些内部差异性很小的位点, 这些位点是由前面提到的似然 分析方法判断得到的。更常见的情况是,MP 分析只简单地屏蔽掉那些高度同形的可疑位点 (比如说,某些序列比对中的第三个编码位点) 。另外一个方法是根据引导树中所能观察到 的位点变化倾向,对位点进行循环加权。这个“连续逼近”方法在 PAUP 中会自动简化,但是 这个方法的出错的倾向程度取决于引导树的出错程度。 MP 分析期望能够产生大量的(有时候是成千上万个)具有相同分值的进化树。因为这些进 化树之间的优化程度相同,所以只有所有进化树都严格一致的分组才算是得到数据的支持。 距离建树方法和 ML 建树方法期望得到一个最简单的最好的进化树, 是因为这些方法的算法 中包括了除法和小数,而 MP 建树方法只是计算离散的步长。对于一个给定的数据集,存在 着比最佳的进化树差不了多少的 ME 进化树或者 ML 进化树, 如果这些进化树严格一致的话, 很可能会产生同 MP 一致进化树多少有些可比性的分解。不幸的是,MP 的使用者传统上都 会给出严格一致的进化树(有时候是进化树的一致性,其中有一个或者两个步骤不太好) , 而 ME 和 ML 用户通常就不会这样做。 现在已经开发了大量的进化树统计量值来描述一个 MP 进化树。除了进化树的长度外, 这些 统计量包括各种各样的比例,用以描述同形的数量,比如稠度指数,或者一个进化树中一个 特征符改变状态的平均次数(Swofford, 1990) 。尽管在 MP 分析中仍然经常报告这些指数,但是已经证明这些指数受到许多人为因

素的干扰,比如被分析的分类群的数量。 模拟研究(Huelsenbeck, 1995) 已经表明, 如果从世系分歧开始的序列进化的数量远大于世系分离的分歧数量 (比如, 一个进化树中,终端的树枝很长,而内部节间的树枝很短) ,MP 的效果同 ME 一样差,比 ML 还要更差。这种情况会造成“长树枝效应”��长树枝可能会被人工连接,因为累积 的非同源的相似性的数量超过了因为真实的相关性而保留的同源相似性的数量(Swofford et al., 1996a) 。在这种情况下,特征符加权会改善 MP 的执行效果(Huelsenbeck, 1995) 。 最大似然方法(ML, Maximum Likelihood) ML 对系统发育问题进行了彻底搜查。ML 期望能够搜寻出一种进化模型(包括对进化树本 身进行搜索) ,使得这个模型所能产生的数据与观察到的数据最相似。 实际上,ML 是从比对的每一个碱基位点衍生出来的。给定一个特定的进化树和观察到的全 部的碱基频率, 我们可以计算出似然值, 具体方法是要计算一个位点遵循一个特定取代过程 时所得到的变化模式的概率; 似然值就是把在这个特定的取代过程中每一个可能的取代的再 现的概率进行加和。所有位点的似然值相乘就得到了整个进化树的似然值(也就是说,数据 集的概率给出了进化树和进化过程) 。大家可以想象一下,对于一个特定的进化树,数据集 的似然值在某些位点偏低,而另外一些位点偏高。如果进化树比较好,那么大多数位点的似 然值都会较高,因此整个似然值较高;如果进化树不太好,似然值就会比较低。如果数据集 中没有系统发育的信号,所有随机的进化树的似然值上都会相差无几。 取代模型应该得到优化,以适应观察到的数据的需要。比方说,如果存在着转化的偏好(其 明显表现为有大量的位点只包含嘌呤或者只包含嘧啶) ,那么,如果计算数据的似然值时所 采用的模型没有考虑偏好的话,其效果显然不如采用考虑了偏好的模型。同样地,如果有一 部分位点确实只包含一种碱基,而另外一部分位点以相同的概率包含各种碱基,那么,如果 计算数据的似然值时所采用的模型假定所有位点的进化都平等的话, 其效果显然不如采用考 虑了位点内部的速率差异的模型。 对于一个特定的进化树, 改变取代参数就意味着将改变与 之相关联的数据集的似然值;因此,在某一个取代模型下,进化树可以取得很高的似然值, 但是,在另一个取代模型下,进化树所取得的似然值就可能会很低。 因为 ML 要耗费大量的计算机机时, 所以对于一个给定的数据集, 想要在优化取代模型和进 化树的同时进行完全的搜索几乎是不可实现的。值得推荐的是一个很经济的探索式的程序 (Adachi and Hasegawa, 1996; Swofford et al., 1996a) 。在这一点上,可能最好的节约时间的方法是前面所说的对取代模型的 ML 评估(图 9.7) 。这个程序可以反复进行,搜索到较好的 ML 进化树,然后重新对参数进行评估,然后 搜索更好的进化树。 随着算法、计算机和对系统发育的认识的进步,ML 标准在分子系统发育分析中也变得越来 越流行。在模拟研究中,如果对由相同的模型产生的数据进行数据分析的话,ML 做得总是 比 ME 和 MP 要好(Huelsenbeck, 1995) 。在所有的方法中,ML 的计算强度最大,所以在某些情况下,它总是无法实现;而 且,同样的模拟研究表明在许多情况下,ME 和 MP 方法同 ML 方法的执行效果一样好(或 者一样差) 。 距离方法、节约方法和最大似然方法的差异 距离方阵方法简单的计算两个序列的差异数量。 这个数量被看作进化距离, 而其准确大小依 赖于进化模型的选择。 然后运行一个聚类算法, 从最相似 (也就是说, 两者之间的距离最短) 的序列开始, 通过距离值方阵计算出实际的进化树, 或者通过将总的树枝长度最小化而优化 出进化树。

用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观 察到的差异。 用于系统发育推论的最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可 能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样。 程序会把所有可能的核苷酸轮流置于进化树的内部节点上, 并且计算每一个这样的序列产生 实际数据的可能性(如果两个姐妹分类群都有核苷酸“A”,那么,如果假定原先的核苷酸是 “C”,得到现在的“A”的可能性比起假定原先就是“A”的可能性要小得多) 。所有可能的再现 (不仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后这个数据集 的所有比对位点的似然值的加和就是整个进化树的似然值。 进化树搜索 即使是对于一个只有 50 个序列的系统来说,单一的系统发育进化树的数量也会随着分类群 数量的增长而按照指数规律增长,从而变为一个天文数字(Swofford et al., 1996a; Li, 1997) 。由于计算能力的限制,现在一般只允许对很小一部分的可能的进化树进行搜索。具 体的数目主要依赖于分类群的数量、优化标准(比如说,MP 要比 ML 快得多) 、参数设定 (比如说,不加权的 MP 要比加权的快得多;预置了少量参数的 ML 要比预置大量参数或者 对参数进行同步优化要快得多) 、计算机硬件以及计算机软件(对软件的依赖性较小;但是 某些算法要比其它算法快; 某些软件允许多线程; 某些软件限制内存里的进化树的数量和种 类) 。搜索程序还会受到数据结构的影响:如果数据解析得很糟糕,那么将会得到较多的“近 乎优化”的进化树,这些进化树必须重新评估以确定其中最优化的进化树。 树枝交换算法不断修整由初始步骤所建立的进化树(Swofford et al., 1996a) 。这个算法的范围很广,既可以产生所有可能的单一进化树(穷举算法) ,也可以只 评估次要的修改。 有两种搜索方法保证可以找到最优化的进化树:穷举法和树枝�跳跃法(BB) (Swofford et al., 1996a) 。对于一个很大的数据集,这两种方法都很不实用。对分类群数量的限制主要取决于 数据结构和计算机速度,但是对于超过 20 个分类群的数据集,BB 方法很少会得到应用。 穷举法要根据优化标准,对每一个可能的进化树进行评估。BB 方法提供一个逻辑方法,以 确定那些进化树是值得评估的,而另一些进化树是可以简单地屏蔽掉的。因此 BB 方法通常 要比穷举法快得多。 绝大多数分析方法都使用“启发式”的搜索(Swofford et al., 1996a) 。启发式现搜索出相近的次优化的进化树家族(“岛屿”) ,然后从中得到优化解(“山 顶”) 不同的算法用不同程度的精确性搜索这些岛屿和山顶。 。 最彻底也是最慢的程序 (TBR, tree bisection-reconnection,进化树对分重接)先把进化树在每一个内部树枝处劈开,然后以任 意方式将劈开的碎片重新组合起来(Swofford et al., 1996a) 。最快的算法只是检查一下相邻终端的不太重要的重新组合,因此倾向于找到最 近的岛屿的山顶。 有许多不同的软件会执行进化树的搜索算法。PAUP 允许对搜索选项进行全范围的设置,从 最肤浅的到最详尽的;而且,对于一个简单的定制搜索,它允许使用不同算法的任意组合, 其中每一个算法都有多个可供用户定义的参数, 同时还提供评估搜索过程和中途修改搜索进 程的方法。PAUP 还可以对进化树岛屿了如指掌,掌握岛屿被命中的次数。 要想改善搜索效率和进化树的优化,可以尝试大量不同的策略。比如说,有些分析方法要耗 费大量的机时和精力才能找到岛屿;要到达同样的效果,我们可以先制造各种各样的“起始”

进化树,这些起始进化树满足一个初始标准,然后用 PAUP 将这些起始进化树排列成岛屿, 最后用更加彻底的算法进行评估。 降低搜索代价的一个最好方法就是对数据集进行剪除。 比方说, 从数据集本身或者从预置的 搜索中, 我们可能会很明显地知道一个由五个终端组成的聚集是不可分解的, 并且这些终端 的排列并不影响剩下的拓扑结构, 而且对这些终端进行分解并不符合数据分析的目的; 这时, 如果在分析中除去这个聚集中的四个终端,将会把搜索任务简化几个量级。 每一种分析都是独一无二的。影响对优化搜索策略(数据量,数据结构,时间量,硬件,分 析目的)进行选择的因素太复杂,使得我们无法推荐一个简单可行的处方。因此进行搜索的 用户必须对他的数据非常熟悉; 他们的脑海里必须要有明确的目标, 了解各种各样的搜索程 序,了解他们的硬件设备和软件的能力;他们必须能够发展他们自己的协议。 建立并搜索进化树的其它方法 上述方法在当前的应用中是最广泛的。 当然我们还可能会在别处注意到, 还有大量的建立和 搜索进化树的其它方法(Swofford et al., 1996a; Li, 1997) 。这些方法包括 Wagner 距离方法和亲近方法(距离转化方法) ;包括 Lake 的不变式 方法(一个基于特征符的方法,它选择的拓扑结构包含一个意义重大的正数以支持颠换) ; 包括 Hadamard 结合方法(一个精细的代数方阵方法,对距离数据或者观察到的特征符进行 修正)包括裂解方法 ; (这个方法决定在数据中应该支持哪一个基于距离的可选的拓扑结构) 。 四重奏迷惑(Quartet puzzling) 方法可以被 ML 建树方法所应用, 这个算法相对而言是个较快的进化树搜索算法。 确定树根 这里所描述的建树方法所产生的都是无跟树(也就是说,进化树没有进化的极性) 。为了评 估进化假说, 通常必须要确定进化树的树根。 确定系统发育进化树的树根并不是一个简单的 小问题(Nixon and Carpenter, 1993) 。 对于序列数据, 如果你接受一个分子钟, 那么树根总是出现在横跨整个进化树的最长跨距的 中点(Weston, 1994) 。分子进化是否有真正意义上的分子钟,仍然是个有争议的问题(Li, 1997) ,但是不管树根在什么地方,绝大多数基因进化树都显示了非分子钟的行为。因此, 通常都是使用外在的证据来确定树根究竟放在何处, 也就是说, 要决定这个进化树通过什么 位置同外围的系统发育集团相连接;这些外围集团可能是那些与被分析的物种/序列没有最 相近的共同祖先的任意的物种/序列。但是外围集团的树根确定问题将其推入一个两难的困 境之中: 同内部集团很相近的外部集团很可能只是内部集团的一部分, 只是被错误地排除在 外了。一个明显距离很远的外围集团(比方说,分析植物时用到的一个真菌种)很可能会拥 有一个分歧非常大的序列, 以至于把这个序列同内部集团放在一起将要受到长树枝效应的影 响(见上) 。 一个确定树根的聪明一点的办法就是分析时加入一个复制的基因(Baldauf et al., 1996; Lawson et al., 1996) 。如果来自于绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去, 那么从逻辑上我们就可以把进化树的树根定位于平行基因进化树的交汇处, 当然要假定在所 有进化树中都没有长树枝问题。 评估进化树和数据 现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性(Swofford et al., 1997) 。对于前者,最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验) ;

对于后者,可以对观察到的数据重新取样,进行进化树的支持实验(非参数自引导和对折方 法) 。似然比例实验可以对取代模型和进化树都进行评估。 随机进化树(偏斜实验) 模拟研究表明,通过随机的数据集所产生的随机的 MP 进化树的长度的分布是对称的, 但是 使用系统发育信号的数据集,其分布将是不对称的(图 9.9; Hillis and Huelsenbeck, 1992) 在偏斜实验中, 统计的临界值随着分类群数目的不同和序列中位点的不同而不同。 。 g1 这个实验并不评估一个特定的拓扑结构的可靠性, 而且这个实验对其它的随机数据集中所呈 现的信号都敏感,哪怕只是很少的一点。如果数据很明显地支持某些分组,而这些分组中的 分类群被有选择地删除, 那么这个实验可以用来决定系统发育信号是否还保留着, 当然至少 要为测试提供 10 种不同的特征符和 5 个分类群。PAUP 中包含了这个程序。 随机的特征符数据(排列实验) 随机数据方法决定了一个从真实数据得到的 MP 进化树或者其中的一部分是否可以偶然得 到。实际上,数据并非真正地随机化了,只是在每一个比对列中以不同次序排列,使得初始 数据的共变性被消除了;结果产生了一个非随机序列的序列比对;正确地说,这些序列中的 每一个位点都是从那些在整个比对中占据这个位点的碱基群体中随机得到的。 排列结尾几率 实验(PTP, the permutation tail probability test)对 MP 进化树的分值和那些通过对每一个位点都进行大量的排列组合多得到的数据所 推算出的进化树的分值进行比较, 从而决定在原始数据中是否存在着系统发育信号。 一个依 赖于拓扑结构的实验(T�PTP, topology-dependent test)对特殊的进化树的分值进行比较,从而决定这些差异是否可以产生偶然性;这个方法 并不评估这个进化树或者其中的一部分是否正确(Faith and Trueman, 1996; Swofford et al., 1996b) 。值得注意的是,T�PTP 实验看来似乎是进一步地确认了进化树中那些同 MP 进 化树很接近但是并不在其中的一些分组; 这是因为这个方法探测集体的信号, 这些信号可以 把一个分类群放置在正确(如果不能说是准确,至少也是近似)的位置;结果可以通过附加 的程序使用相关的数据子集进行调整(Faith and Trueman, 1996) 。PAUP 中包含了这个程序。 自引导方法 自引导方法是对进化树重新取样的评估方法,可以对距离建树方法、节约建树方法、似然进 化方法以及衍生出的其它任何方法进行评估。这个方法是在 1979 年(Efron, 1979)提出的,并且由 Joe Felsenstein 将其引入(Felsenstein, 1985) ,作为系统发育分析中的进化树评估方法。典型的自引导分析结果是一个数字,这个 数字同一个系统发育进化树的一个特定树枝相关, 而这个系统发育进化树则给出了支持单源 进化分支的自引导的重复比例。 那么在实际操作中应该怎么做呢?自引导方法的操作过程可以分为两个步骤, 第一步先从原 始数据集中产生 (许多) 新的数据集, 然后经过计算得到一个数值, 表征一个特定的数值 (比 方说,一个分类群)在进化树中出现的次数的比例;这个数值通常被称为自引导数值。从原 始数据集中产生新的数据集的具体做法是重新取样,即从原始数据集中随机地“可以替换” 地抽取各个列中的特征符作为新的样本。“可以替换”的意思是说每一个位点都可以重新取 样, 其抽取几率同其它任何位点的抽取几率都一样; 结果是每一个新建的数据集同原始数据 集的位点总数相同,但是某些位点重复了两次或者三次,而某些位点则丢失了;当然新建的

数据集也有可能同原始数据集完全相同��或者走向另外一个极端,只有一个位点被 反复抽取,总数达到 500 次,而原始数据集中其它 499 个位点都被丢失了。 虽然自引导评估方法已经成为整个系统发育分析中的一个普遍手段, 但是对于这个方法究竟 计 算了 什么仍 然有 一些争 论。 刚开始 的时候 ,有 人提 议说自 引导数 值计 算了 重合性 (Felsenstein, 1985) 。在最近的阐述中,自引导程序被认为是计算了精确性��这个生物学相关的参 数给出了得到真实的系统发生史的可能性(Felsenstein and Kishino, 1993) 。模拟研究表明,在合适的条件下(各种替换速率基本相等,树枝基本对称) ,如果自 引导数值大于 70%,那么所得到的系统发育进化树能够反映真实的系统发生史的可能性要 大于 95%(Hillis and Bull, 1993) 。同理,如果条件不是很合适,那么如果自引导数值大于 50%,则精确性的 评估就会过高(Hillis and Bull, 1993) 。在某些条件下,如果自引导数值较高,可能会使系统发生史看起来很好,从而得出 错误的结论。 实际的考虑 如果样本较小,这个技术是不会被用到的。如果一个特定的分组不太可信的话,那么就可以 使用自引导方法进行评估, 以确认将这个分组并入一个大的单源分组中是否可信 (Sanderson, 1989) 。也可以在实验中使用自引导方法,这个实验的具体做法是:每次删除一个内部树枝, 然后根据剩余的内部树枝重新计算进化树, 这样做的目的是为了收集分歧顺序信息, 而这些 信息在整个数据集中都是很不明确的(见实例:Leipe et al., 1994) 。 对折方法 对折方法同自引导方法相似,都是要重新进行取样。但是,与自引导方法中产生“可以替换” 的新的数据集不同的是, 对折方法在对原始数据集重新取样时, 是从每一个复制中除去一个 和多个比对位点; 结果是每一个对折的复制品都比原始数据集要小, 而且不会包含重复的数 据位点。虽然绝大多数论文都假定通过不同的技术方法评估所得到的可变性都应该很相似 (Swofford and Olsen, 1990; Swofford et al., 1996a) ,实际上对折方法的使用频率远低于自引导方法。尽管如此,对折方法仍然有一定的 市场,象 PAUP 和 PHYLIP 这样的程序里都包含有这个选项。 带参数的自引导方法 带参数的自引导方法同不带参数的自引导方法不同, 前者使用了模拟的但是仍然真实的复制 品,而不是虚假的复制品。在进行系统发育的序列分析中,与原始数据集大小相同的复制数 据集是通过一个特殊的序列进化模型得到的, 数据集还包括根据这个模型得到的最佳进化树 拓扑结构(Huelsenbeck et al., 1996a) ,然后就可以使用感兴趣的方法对每一个数据集进行分析。对实验进化树的树 枝是否支持的判定方法同无参数的自引导方法大体相同。 作为一种还没有被其它方法(诸如进化树中所显示的分类群中的任何分组的单个谱系) (Huelsenbeck et al., 1996a, 1996b)检验过的测试假定,带参数的自引导方法还不能算是无参数的自引导方法之外的一 种选择。在每一个复制品的分析中,“真实的”进化树(假定能够产生模拟数据的进化树)的 分值可能会比每一个复制品的最好的进化树的分值都要大(或者小) 。分值差异图则显示了 样本偏差的一个真实的正规分布。 任何期望的可选的进化树拓扑的分值差异的重要价值可以

由这个正规图来决定。带参数的自引导方法可以同任何建树方法协同使用。目前,这个方法 的局限因素在于程序生成模拟数据的可行性。 有一个程序, 能够在以下情况下模拟序列数据: 模型包括两个取代类型(转化和颠换) ,碱基频率不相等,对于内部位点的速率差异设定或 者没有设定 gamma 修正。这个程序可以在作者的 Web 站点上找到,这个站点由 Berkeley 维 护(参见本章最后所附的 Internet 资源列表) 。 似然比例实验 正如方法名称所暗示的那样, 似然比例实验适用于 ML 分析。 评估一个次优化的似然值对于 最优化模型中的正规的误差分布极为重要。在理想情况下,误差曲线被假定为一个 chi-平方 分布, 因此实验统计值应该是最优化数值和实验数值之差的两倍, 而其自由度则是不同的参 数的数目。 应用 chi�平方实验来选择系统发育进化树存在不少问题, 尤其是因为“参数空间的不规则 性”(Z.Yang et al., 1995) ,但是如果取代模型之间的参数数目已知的话,这个方法可以用来评估取代模型的最 优性。 一旦我们用上述最大似然程序评估了一个取代模型和进化树, 我们就可以用较少的参 数对这个进化树进行评估(比方说,把位点内的速率设置为相同:图 9.7) 。 Kishino�Hasegawa 实验 如果给定了伴随着决定进化树误差的不确定性, 另外一个方法就可以决定与比对中每一个位 点相联系的取样误差(Kishino and Hasegawa, 1989) 。这个程序在 PAUP 中执行,可以用来测试一个特定的次优化的 ML 或者 MP 拓扑结 构同最优化的拓扑结构相比是否显著不同, 当然必须假定用来产生最优化的进化树的模型是 正确的。 这个方法不能被用来评估任意选择的拓扑结构: 因为不同的拓扑结构可能会拥有不 同的似然功能,在某个模型下,一个统计学意义较差的进化树在另一种模型下,其统计学意 义可能会变得很好。 可以把本方法同带参数的自引导方法结合起来 (模型和进化树已经预先 最优化了) ,以避免这个问题(见 Sullivan et al., in press) 。 约束进化树搜寻 评估进化树的一个最有效的方法是比较无约束搜索和有约束的搜索, 约束条件是必须搜索同 一个特殊拓扑结构相联系的最优化进化树。 除了比较简单分值外, 还可以把约束进化树同排 列实验、 似然比例实验、 Kishino�Hasegawa 实验以及带参数的自引导评估方法结合起来。

系统发育
科技名词定义 中文名称: 系统发育 英文名称: phylogeny;phylogenesis 其他名称: 种系发生 定义1: 指生物谱系的分支演化历史;可以指生命自起源后的整个发展演变历史;或指某一类群 的形成发展历史。包括较高分类单元的起源和演化等。 应用学科: 古生物学(一级学科) ;总论(二级学科) 定义2: 一个或一群生物体的进化史,通常用进化树做图示。 应用学科: 免疫学(一级学科) ;概论(二级学科) ;免疫学相关名词(三级学科) 定义3: (1)生物种族的发生、成长和演变的过程。 (2)地球上生命的起源及演变过程。 应用学科: 水产学(一级学科) ;水产生物育种学(二级学科)
本内容由全国科学技术名词审定委员会审定公布

基本概念

系统发育 (phylogeny) 也称系统发展, 是与个体发育相对而言的,

它是指某一个类群的形成和发展过程。大类群有大类群的发展史,小类群有小类群的 发展史,从大的方面看,如果研究整个植物界的发生与发展,便称之为植物界的系统 发育。同样,也可以研究某个门、纲、目、科、属的系统发育,甚至在一个包含较多 种以下单位(亚种,变种)的种中,也存在种的系统发育问题。例如,在单子叶植物 的菝葜科(Smilacaceae)中有各种类型的植物,有木本的、草本的,有直立的、攀 缘的,有单花序的、也有复合花序的等等。这些类群之间在进化上有何联系?哪个类 群较为原始?哪个类群较为进化?对这类问题的探讨就是探讨各类群的系统发育。种 是分类的基本单位,但在种之下又有亚种、变种、变型,这说明在一个种的范围内, 也有变化和发展,这就是种的系统发育。同样道理,纲、目、科、属,各个分类等级 均有其系统发育。

系统发育分析
Mark A. Hershkovitz and Detlef D.Leipe
NationalCenterfor Biotechnology Information National Library of Medicine National Institutes of Health Bethesda,Maryland

系统发育学研究的是进化关系,系统发育分析就是要推断或者评估这些进化 关系。通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树) 来描述,这个进化树就描述了同一谱系的进化关系,包括了分子进化(基因 树) 、物种进化以及分子进化和物种进化的综合。因为”clade”这个词(拥有共 同祖先的同一谱系)在希腊文中的本意是分支,所以系统发育学有时被称为 遗传分类学(cladistics)。在现代系统发育学研究中,研究的重点已经不再是生 物的形态学特征或者其他特性,而是生物大分子尤其是序列。 尽管本章的目的是想描述一个万能的系统发育分析方法,但是这个目标过于 天真,是不可能实现的(Hills et al.,1993)。虽然人们已经设计了大量的用于系

统发育的算法、过程和计算机程序,这些方法的可靠性和实用性还是依赖于 数据的结构和大小,因此关于这些方法的优点和缺点的激烈争论成了分类学 和系统发育学期刊的热门课题(Avise, 1994:Saitou, 1996; Li, 1997; Swofford et al., 1996a) 。Hillis 等人(1993)曾经极其简单地介绍过系统发育学。 比起许多其它学科而言,用计算的方法进行系统发育分析很容易得到错误的 结果,而且出错的危险几乎是不可避免的;其它学科一般都会有实验基础, 而系统发育分析不太可能会拥有实验基础,至多也就是一些模拟实验或者病 毒实验(Hillis et al., 1994) ;实际上,系统发育的发生过程都是已经完成的历 史,只能去推断或者评估,而无法再现了。尽管现在的系统发育分析的程序 存在着很多缺陷, 许多生物学著作中仍然大量引用系统发育分析得到的结论, 这些结论的源数据只是简单地应用了某一个系统发育的分析程序。只有在很 偶然的情况下,在应用某些软件处理数据时受到的困难会少一点,但是在概 念上理解这些程序是如何处理数据仍然是个难题。 本文中关于系统发育分析方法的指导有如下一些目的。首先,我们要介绍一 个概念性的步骤,这个步骤包含了当前在对生物序列进行系统发育分析时最 广泛使用的方法中应用到的一些最重要的原理。这个步骤认为,所有的系统 发育方法都刻画了一个模型去模拟真实的进化过程,然后假定程序发现的序 列之间的差异是模拟的进化结果,而这个模型本身就包含了方法中固有的假 定。对于一个好的使用的系统发育的分析方法,刻画一个正确的模型同描绘 一个正确的进化树是同等重要的。另外,我们还将讨论一些比较通用的方法 所刻画的模型,并且讨论一下这些模型是如何影响对数据组的分析的。最后, 我们会针对系统发育模型和进化史的推论,提供一些具体方法应用的例子。

系统发育模型的组成
系统发育的建树方法都会预先假定一个进化模型(Penny et al., 1994) 。比如, 所有广泛使用的方法都假定进化的分歧是严格分枝的,因此我们可以用树状 拓扑发生图来描述已知的数据。但是在一个给定的数据组中,因为存在着物 种的杂交以及物种之间遗传物质的传递,这个假定很可能会被推翻。因此, 如果所观察的序列并非是严格遗传的话,大多数系统发育方法就会得到错误 的结果。 系统发育方法中固有的模型会导致一些额外的假定: 1 序列有指定的来源并且正确无误(Helbig and Seibold, 1996; Hershkovitz and Lewis, 1996; Soltis et al., 1997) 。 2 序列是同源的(也就是说,所有的序列都起源于同一祖先序列) ;这些 序列不是“paralog“(paralog 指的是一个祖先序列通过复制等方法在基因 组中产生的歧化序列)的混合物。 3 序列比对中,不同序列的同一个位点都是同源的。 4 在接受分析的一个序列组中,序列之间的系统发育史是相同的(比如, 序列组中不存在核序列与细胞器序列的混合) 。 5 样本足以解决感兴趣的问题。 6 样本序列之间的差异代表了感兴趣的宽组。 7 样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。

还有一些假定,在某些方法中是默认的,但是在另外一些方法中是可 以修正的: 8 样本序列是随机进化的。 9 序列中的所有位点的进化都是随机的。 10 序列中的每一个位点的进化都是独立的。 许多公开发表的系统发育分析结果的错误通常都是因为违反了上述假定,特 别令人恼火的是现有的方法并不能察觉对基本假定的违反。每一个序列组都 必须根据上述基本假定进行评估,并且同分析过程相协调。下面我们将会描 述分析过程。

系统发育数据分析:比对,建立取代模型,建立进化 系统发育数据分析:比对,建立取代模型, 树以及进化树评估
对 DNA 序列进行系统发育分析的四个主要步骤是比对, 建立取代模型, 建立 进化树以及进化树评估。一般来说,执行这四个步骤的计算机程序都是相互 独立的,但是他们都是进行系统发育分析的有机部分。 当前的讨论主要集中在分析 DNA 序列的方法上,这些方法基本上(不全是) 仍然是通过碱基和密码子的替代来考察序列的差异;这个方法同样应用于对 蛋白质序列的分析,但是由于氨基酸的生物化学多样性,我们必须引入更多 的数学参数。因此,下面讨论的适用于核苷酸碱基的方法同样适用于氨基酸 和密码子,而关于蛋白质的一些特殊问题和程序会在别的地方得到讨论 (Felsenstein, 1996) 。

因为建树的标准在一定程度上依赖比对和取代模型,因此一开始就应该介绍 这些方法,这些介绍非常必要。三种主要的建树方法分别是距离、最大节约 (maximum parsimony, MP)和最大似然(maximum likelihood,ML) 。距离 树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进 化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的多重比对结 果, 优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。 最大似然方法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构 和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结 果。这些方面将会在后面详细讨论。

建立数据模型(比对) 建立数据模型(比对)
系统发育的序列数据通常会进行多重比对,也就是说,在系统发育的有关文 献中通常会把那些单独的比对好的碱基所占据的位置称作位点;在进行系统 发育的理论讨论时这些位点等同于特征符,而占据这些位点的真实的碱基或 者空位被称为特征符状态;但是也有例外,STATALIGN 程序(Thorne and Kishino, 1992) 在进行系统发育分析时不会进行多重比对, 它使用原始的未比 对过的序列。 多重比对在第七章中有详细讨论,在这里我们只讨论与系统发育分析有关的 多重比对方法。对准的序列位点将会被应用于系统发育分析,但是这只能描 述一个先验的系统发育的结论,因为位点本身(不是真实的碱基)都是假定 为同源的(Mindell, 1991; Wheeler, 1994) 。因此,出于系统发育的目的,比对 程序只是系统发育分析的一部分。

建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果 中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程 序如何处理容易引起歧义的比对区域和插入----删除序列(即所谓的 indel 状 态或者空位状态) 。

多重比对程序
多重比对程序有如下一些属性: 计算机依赖性:无依赖;部分依赖;完全依赖。 系统发育调用:无调用;先验调用;递归调用。 比对参数评估:先验评估;动态评估;递归评估。 比对特征:基本结构(比如序列) ;高级结构。 数学优化:统计优化;非统计优化。 在系统发育分析研究中,一个典型的比对过程包括:首先应用 CLUSTAL W 程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征 选项: 、部分依赖于计算机(也就是说,需要手工调整)(2) (1) ; 、需要一个 先验的系统发育标准(也就是说需要一个前导树)(3) ; 、使用先验评估方法 和动态评估方法(推荐)对比对参数进行评估; 、对基本结构(序列)进 (4) 行比对(对于亲水的氨基酸,推荐引入部分的二级结构特征)(5) ; 、应用非 统计数学优化。这些特征选项的取舍都依赖于下面将要描述的具体的系统发 育分析方法。

计算机依赖型
提倡进行完全的计算机多重比对的人常常有这样的依据,他们认为手工比对 通常都是含混不清的(Gatesy et al., 1993) 。MALIGN(Wheeler and Gladstein, 1994)和 TreeAlign(Hein, 1990, 1994)程序都试图在根据系统发育功能而优 化比对的时候实现完全计算机化,尤其是试图通过初步的多重比对而优化出 一个最大节约树(MP tree) 。一般来说,只有当我们假定计算机程序能够进行 正确的比对的时候,我们才会实行完全的计算机处理。之所以还提倡进行手 工比对(比如,Thompson et al., 1994) ,是因为现在的比对算法和程序还不能 满足系统发育分析的需要。

系统发育标准
许多计算机多重比对程序(比如 CLUSTAL, PileUp,ALIGN in ProPack)根据 明确的系统发育标准(一个前导树)进行比对,这个前导树是由双重比对得 到的。但是 SAM(Hughey et al., 1996)和 MACAW(Lawrence et al., 1993) 程序在进行多重比对时并不引入明确的系统发育标准,虽然这些程序也可以 模拟系统发育过程操作参数。 如果在进行系统发育分析的时候,比对中引入了前导树,那么通过这个比对 推导出的进化树逻辑上应该同前导树的拓扑结构相同。由 CLUSTAL 比对得 到的前导树(如图9.1)将会被转化成 PHYLIP 树的文件格式,然后输入到画 树程序中,这些画树程序包括 TreeTool(X windows), TreeDraw(Macintosh), PHYLODENDRON(Macintosh), TREEVIEW(Macintosh, Microsoft Windows)或 者 PAUP(图 9.1;Macintosh, Microsoft Windows)的画树工具。按道理,我们

应该回过头来为 CLUSTAL 比对再指定一个前导树,但是在实际操作中我们 并不会这么做。有些程序(比如 TreeAlign and MALIGN)为了得到优化的比 对和系统发育树,程序本身就设计了交叉(同步)递归优化的算法。理论上, 能够解决比对----系统发育难题的同步优化算法或者配套算法应该是存在的, 但是递归算法必须冒一定的风险,它很可能会导致一个错误的或者不完整的 结果(Thorne and Kishino, 1992) 。因此,根据比对结果建立进化树之后,必 须考虑另外的可能性,也就是说,如果根据其它的比对结果得到一个并不是 最优化的进化树,这个次优化的进化树是不是更能够满足研究的需要。

比对参数评估
在比对中会出现一些序列区域,其长度是可变的,如何处理这些区域中 indel 状态的位点是最重要,这取决于进化模型的所有要素(比如,包括核苷酸转 换/颠换速率) ,而且相关的参数在前导树与比对推导的进化树中应该保持一 致。比对参数应该随着进化的分叉动态变化(Thompson et al., 1994) ,只有这 样才能保证碱基错配的几率能够满足序列趋异的需要;比对参数应该随时调 整(Thompson et al., 1994, Hughey et al., 1996) ,以防止引入过多的近似序列 而导致比对序列的信息量不足,可以通过降低近似序列的比对分值权重来防 止这种情况。CULSTAL 程序兼顾了这两种情况(参数动态变化) ,而 SAM 程序引入了序列权重。

利用基本结构或者高级结构进行比对
根据二级或者三级序列结构进行比对,比起直接利用一级序列进行比对的可 信度要好,因为在同源性评估中,人们一直认为复杂结构的保守性高于简单

特征(核苷酸,氨基酸)的同源保守性,而且,立足于复杂结构的比对程序 还可以搜索到一些特殊的关联位点,这些位点是进化的功能区域。实际上, 基于系统发育的结构多重比对并没有将问题简化,也就是说,序列比对必须 服从结构进化,而结构进化则同系统发育保持一致。有一个探索式的手工程 序(如图9.2) ,是用来对核糖体 DNA 进行结构比对的(Gutell et al., 1994) , 这个程序要考察相关取代的样式,但是相关性必须通过系统发育树中的多个 独立的补偿性突变推导得到(cf. Harvey and Pagel, 1991) 。

数学优化
有些比对程序(比如,MACAW, SAM)根据一个统计模型进行优化,但是这 些统计同系统发育模型的关系并不清楚。仅仅根据一个系统发育模型是没有 办法比较多重比对方法的优劣的。

总结:对于系统发育分析,最好的比对程序是什么呢? 总结:对于系统发育分析,最好的比对程序是什么呢?
对于一个给定的系统发育问题,如果预先不知道其中的系统发育关系,就很 难知道最适用的比对方法(cf. Morrison and Ellis, 1997) 。一般来说,我们并 不赞成直接把计算机比对结果提交给建树程序,因为建树程序不能发现比对 的错误;尤其是那些包含在比对程序包中(比如,CLUSTAL and TREE in ProPack)的建树程序,特别要注意这一点(Feng and Doolittle, 1996) ,因为 在这些程序包中的建树程序更加不严格。我们必须通过分子结构�功能和 碱基取代过程作出一些假定,并且结合另外一些独立的系统发育证据,对整 个比对进行考察。

从比对中提取系统发育数据集

在某些比对中,比对长度是可变的,这时,系统发育数据集同比对就不会完 全吻合;即使 在一些长度不变的比对中,数据集也可能同比对结果不一致-举一个很简单的例子,有时候我们只需要处理第一个和第二个密码子位点, 就不需要全部的比对结果,这个话题我们在后面讨论取代模型的时候还会涉 及到。 如果比对中出现可变长度,我们通常会根据比对的不确定性程度和处理 indel 状态的原则这两个标准对比对结果进行取舍,从中选择所需的系统发育数据 集; 其中针对 indel 状态的处理方法取决于建树方法以及从比对结果中发掘出 的系统发育信息, 最极端的方法是把包括空位在内的所有 indel 位点从比对中 ,这个方法的好处是可以 清除出去,在分析时不加考虑(cf. Swofford et al., 1996a) 把序列的变化包容在取代模型中,而不需要特别的模型来处理 indel 状态,但 是它的缺点也很明显:indel 区域的系统发育信息完全被忽略了。 在提取数据集时保留 indel 区域但是忽略所有的空位分值, 将会保留包括空位 在内的位点碱基变化信息。某些长度可变区域在部分序列或者全部序列中很 难对准,在这种情况下,这些难以对准的碱基的分值应该清零;这个方法存 在很大的缺陷,MP 和 ML 建树方法会不加考虑地把这些清零的或者被忽略的 分值理解为零分歧,但是实际上隐藏在这些分值下面的实际的数据(不管是 空位还是难以对准的碱基) ,一般来说,反映出的分歧度都很大。PAUP 4.0中 的距离建树方法(将在下文描述)允许通过非空位区域外推得到空位区域的 距离。 最大节约(MP;见下)是允许把可比对的空位合并,并将其视为特征符的唯

一方法;可以通过两种方式达到目的:作为一个附加的特征符状态(第五种 核酸碱基或者第二十一种氨基酸) ,或者作为一套独立于碱基取代的特征符 集。当空位占据了不止一个位点的时候,前一个方法行不通,因为每一个空 位位点都会被统计为一次独立的特征符状态变化。当比对的序列的局部出现 很好的可比对的空位的时候,后一种方法非常有用。我们可以把一套空位特 征符附加到比对序列数据集中,也可以用额外的碱基程序在适当的位置对空 位计分,但是在计分的时候,空位位点中只有一个作为空位计分,其余的将 会被忽略。PAUP 将会执行这个方法。 对于某些比对而言,比对程序会忽略所有的空位分值或者忽略所有低于预设 值的空位分值;但是,还没有任何一种程序会忽略单个序列的单个位点。如 果比对在序列组内部相当明确,但是处身其中时却不太清楚,此时必须对比 对做“手术”,确保同序列组相关的明确的信息被保留,而除去模糊的信息。 图9.3给出了一个比对“手术”的例子。在空位区域,我们必须作出决定:在可 供选择的比对中,哪一个更加合理,尤其重要的是,哪一个更加适合于建立 进化树分析。如果手工解决比对的不确定性,就必须考虑系统发育关系、取 代过程(比如,转换和颠换)和碱基组成;在这个阶段,用系统发育证据解 决不确定性非常合理。在倾向于变长的序列区域,关系非常疏远的序列和序 列组的比对就可以侧向展开(就是说,引入人工空位,并且忽略分值) ,最终 的结果使得只有关系很近的序列区域对准在一起。某些序列中的某些位点虽 然对准了,但是并不确定,他们的分值可以在计分时忽略;这个方法的优点 是可以保留同这些序列相关的明确信息,缺点是最大节约和最大似然的建树 方法会把这些“缺失”的分值看做是零分歧。

由 MALIGN(Wheeler and Gladstein, 1994)和 TreeAlign 得到的比对不需要在 比对后用这些方法中的建树方法进行数据修饰,即使这些比对中仍然有一些 同样类型的不确定性,这些不确定性在另外一个程序进行分析时需要修正。 如前所述,这些程序会根据由比对得到的最好的 MP 系统发育进化树,对比 对参数进行递归优化。MALIGN 还会利用一套空位为代价,对以连接的可供 选择的比对为基础的建树方法进行优化;在这个方法中,在最有可能的几种 比对中出现的比对特征将会被加权。这就提供了一种方法,可以捕获序列分 歧的数量(在取消不确定的比对区域的分值的时候这些分歧是被忽略掉的) , 因为这些区域的所有可能的比对方式都将显示这些区域的最大的序列分歧。 处于不确定的比对区域中的位点很可能不是同源的,因此在进化树中需要加 入一些噪声干扰或者偏向。

决定取代模型
对于取代模型,应该给予同比对和建树同样的重视。就像前面暗示的那样, 取代模型既影响比对,也影响建树;因此需要采用递归方法。现在,对于核 酸数据而言,可以通过取代模型中的两个要素进行计算机评估(Swofford, 1997) ,但是对于氨基酸和密码子数据而言,没有什么评估方案(Felsenstein, 1996) 。其中一个要素是碱基之间相互取代的模型;另外一个要素是序列中不 同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复杂 的变量(比如,位点特异性或者系统特异性取代模型)进行评估,同样,现 有的建树软件也不可能理解这些复杂变量。

碱基取代速率模型

一般而言,生物化学性质相近的碱基之间的取代频率较高;在 DNA 中,四种 转换(A G G, G A, C T, T C)的频率比八种颠换(A C, A T, C G,

T,以及前四种的反向取代) 的频率要高; 这些偏向会影响两个序列之间的

预计的分歧。 各个残基之间的相对取代速率一般由方阵形式列出;对于碱基而言,行数和 列数都是4,对于氨基酸而言,行数和列数都是20(比如 PAM 方阵) ,对于密 码子而言,行数和列数都是61(除去了中止密码子) 。非对角线元素对应于一 个碱基变为另一个碱基的相对代价,而对角线元素则代表不同序列拥有同一 个碱基的代价。 这些代价值可以固定为先验的代价表,以确保建树方法在计分时对每一种取 代都使用确定的代价值。 固定的代价方阵是典型的静态权重方阵, 建树方 MP 法(如图9.4)使用的就是这种方阵。如果使用这种权重,那么这个方法就会 被称为“加权节约”。 又如, 建树方法, ML 代价值是由即时的速率方阵得到的, 这个方阵(如图9.5)代表了各种取代可能会发生的概率的 ML 估计值。MP 权重方阵只涉及简单的算术,而应用距离和 ML 速率方阵则可以引入复杂的 代数。 为了避免盲目使用不适当的方法, 建议大家熟悉其内部的基本原理 (见 Li, 1997, and / or Swofford et al., 1996a) 。 实际上, “前进”和“反向”取代速率被认为是相同的; 这个取代模型被称为是“时 间可逆”;这个模型拥有“静态”的性质,因为在所有的碱基频率中没有预知的 变化。在系统发育的特殊历史中,不同序列中的碱基频率不同表明,前进和 反向速率实际上可能会不同;而传统的取代权重或者速率方阵不能包容这个

“非静态”环境;本节的结尾将讨论一个基于非静态取代模型(“log�det”) 的建树方法,这个方法将会提供一个可供选择的计算方法。 通常,特征符状态的权重方阵都会或多或少地通过观察进行过估值,当然也 可以从速率矩阵衍生得到。比如,如果假定两个转化的其中一个,发生的频 率是每个颠换的两倍,那么据此就可以确定一个权重方阵,比如,A�G 的转换代价为1,而 A�T 的颠换代价为2(图9.4)(节约方法规定对角线 。 元素值,或者说是不同序列中拥有相同碱基的代价值为零。这是节约方法的 一个缺点��详见下文)在随后的建树步骤中,这套假定会把颠换的总 数降至最低值,而力求把那些主要差异是转换的序列集中在一起。 任何一种“时间可逆”的核苷酸取代模型都可以用图9.5所示的方阵刻画,只是 其中一个速率和其它速率的差异;在任意组合中,最多可以达到只有六个参 数,其中每一个速率参数都是独立的(Swofford et al., 1996a;Li, 1997) 。如 果平衡的碱基频率不相等,则需要额外的参数;如果平衡的碱基频率不相等, 但是却假定这些频率相等,那么系统发育进化树的最终结果将会出错(Li, 1997) 。 侧线(paralinear) (Lake, 1994)和“log�det”(Lockhart et al., 1994)做了 一些修正(见 Swofford et al., 1996a)来满足非静态环境的需要;这个方法只 适用于距离进化树的建立;在这个方法中,对于每一个序列匹配,各种类型 和变化方向的原始取代的数目都会计算在一个4×4的方阵中(如图9.6) 。每个 方阵都会有一个代数行列式,这个行列式的 log 值是评估序列差异性的一个 要素,因此被称为“log�det”。对那些拥有各种各样的碱基频率的序列进行

双重比较,就会得到各种各样的方阵,也就会得到各种各样的行列式值;因 此,在评估序列两两之间的距离的时候,就要受到序列两两之间的行列式值 的影响,而且序列两两之间的比较允许适用不同的取代模型,因此沿着系统 发育进化树的不同树枝,将会产生多元化。Log�det 尤其对位点之间的速 率差异(见下文)敏感,因此,碱基频率的偏向可能只存在于那些承受变化 的位点。

位点内速率差异模型
除了取代模型的多元化以外,一个序列中各个不同位点之间取代速率的差异 也会对建立进化树的结果产生很深远的影响(Swofford et al., 1996a) ;关于位 点之间的速率差异(或者叫做位点异质性) ,有一个最明显的例子,就是在一 个编码序列中,三联体编码的位点差异:在三联体编码中,第三个编码位点 比另外两个位点更加容易发生变化;正是出于这个原因,许多系统发育分析 方法在分析编码序列时,都会把第三个编码位点排除在外;但是在某些情况 下, 速率差异模型会更加敏锐 (比如, 对应于蛋白质或者 rRNA 的保守序列) 。 对位点差异的取代速率进行估值的方法有非参数化模型(W.M. Yang et al., 1996) ,不变式模型和 gamma 分布模型(Swofford et al., 1996a) 。非参数化方 法源于特异位点的相对速率的范畴;这个方法可以在 MP 建树方法中使用, 只要根据相对的变异频率对特异位点进行简单加权就可以了,当然进行加权 时需要有关于真实进化树的预备知识;这个方法同样也可以适用于 ML 建树 方法,但是在计算上被认为是不切实际的(W.M. Yang et al., 1996) 。不变式模 型对一定比例的位点进行估值,这些位点并不能自由变化;剩余的位点假定

为等概率变化。至于 gamma 模型方法,它假定一个给定的序列变化的概率是 遵守 gamma 分布规律的,据此指定位点的取代概率;gamma 分布的形状(有 形状参数 α 描述) 描述了一个序列中各个位点的取代频率的分布 (Swofford et al., 1996a, p. 444, Figure 13; cf. Li, 1997, p. 76, Figure 3.10;注意尺度差异) 。在 一个混合方法中,可以假定一部分位点是不变的,而剩余的位点则是按照 gamma 分布变化的。 实际上,gamma 修正可以是连续的,离散的或者自离散的(W.M. Yang et al., 1996) 。连续 gamma 的意思是各个位点沿一条连续的概率曲线变化;目前, 这个方法在绝大多数情况下无法计算。 离散 gamma 逼近方法指定各个位点的 概率,使得这些(大量的)概率值逼近 gamma 曲线。自离散模型假定相邻的 位点的变化速率是相关联的;许多组位点被分为许多类,其中每一类中的位 点的变化速率可能被假定为常量或者异类值。 进化树建立程序使用各种各样的位点速率差异修正方法。对于核酸数据, PAUP 4.0在单独或者混合使用时间可逆的距离建树方法和最大似然建树方法 时, 既使用不变式 gamma 模型, 也使用离散的 gamma 模型; 在使用 log�det 距离建树方法时,使用不变式模型(见下) 。对于核酸,氨基酸和编码子数据, PAML 使用连续的, 离散的和自离散的 gamma 模型。 对于核酸和氨基酸数据, PHYLIP 使用一种离散的 gamma 模型。

究竟使用哪一种取代模型呢? 究竟使用哪一种取代模型呢?
在一个给定的序列集中,即使一个取代模型中的任何参数都可以证明是很有 判断力的,但是最好的模型并不一定总是拥有最多的蚕室;相反,参数越少,

模型越好,这是因为对每一个参数进行估值都会引入一个相关的变量,而每 引入一个附加的参数维度,都会使得整体的变数增加,有时候甚至会对模型 起抑制作用(见 Li, 1997: p. 84,表4.1) 。对于一个给定的序列比较,如果模型 只有两个参数,那么碱基差异的总和要被划分为两个类别;如果模型有六个 参数,那么碱基差异的总和要被划分为六个类别;很明显,如果分为六个类 别,那么每一个类别中的位点样本数目将会很小,很可能小得无法进行合理 地估值。 PAUP 的“描述树”特征是对 DNA 序列的取代模型进行规范的一个较好的策 略,它使用似然方法同时评估六个可逆的取代速率、gamma 分布的 α 形状参 数和不变的位点的比例(图9.7) 。这些参数可以通过相等的或者指定的碱基 频率进行估值。通常,任何一个合理的系统发育进化树(比如,很容易就可 以得到一个相邻连接的进化树)都适用于这个程序,因为很明显,对参数的 估值在很大程度上受到特征符模式的影响,而不是进化树的拓扑结构 (Swofford et al., 1996b) 。这个估值程序对于50个序列而言,并不会耗费太多 的时间。如果序列较多,或者时间较紧,可以对试验的进化树进行精简,在 保留全部的系统发育范围和结构的同时,减少分类数目。通过这些估算的取 代参数, 我们可以通过比较由较多参数和较少参数分别评估得到的似然分值, 决定一个简化的模型是否合理(比如,六个取代类别是否可以减少到两个) 。 有时候,α 参数和不变位点的比例可以相互替换,所以我们应该比较每一个 单独使用时得到的似然分值和两个同时使用时得到的似然分值。 注意, MP 和 以及 ME 不同,用不同的参数值得到 ML 分值可以直接比较(Swofford et al., 1996b) 。

对于编码蛋白质的 DNA 序列,根据样本的分歧程度,有时候很明显地,有用 的变化基本上都是第一位和第二位的编码位点,而在整个数据集中,第三位 点通常都是随机的,或者第三位点变化而第一位点和第二位点不变。尽管除 去“无用”位点可以提高剩余位点的不同速率的估值精确度,上面所述的程序 还是要对这个速率差异进行修正。对于节约进化树的建立,我们有时候会把 随机的第三位点从分析中除去,因为这些位点只会引入噪声,如果碱基频率 不相等,这些位点还会引入错误。 怎么样才能确定数据集中的非静态因素是否会成为一个问题呢?最简单的方 法可能就是去比较 PAUP 中两种通过不同方法得到的建树结果和进化树评估 结果,一种方法是使用时间可逆的方法,另一种方法是 log�det 距离建树 方法。下面的章节中将会涉及到这些程序。 还没有什么好的计算方法,能够直接从序列数据中评估非静态因素的影响。 PAUP 中有一个命令, 会列出所有序列的碱基频率。 这个程序应该使用排除不 变位点(Exclude Constant Sites)的选项。序列中的碱基频率可以很直观地比 较出来。数据文件应该指定 gapmode=missing,或者 PAUP 要把一个空位特 征符计算为一个碱基变化。碱基频率的命令还要对数据执行一个“chi 平方 (chi�square)”测试,但是这个测试并不切实际,因为它假定数据是从一 个随机样本中提取的,而结果就会假定所观察到的不相等是相互独立的而不 是系统发育结构的结果。一个毫无意义的 chi�square 分值并不能除去非静 态因素, 而一个有意义的分值很可能会进一步证实非静态因素。 PAUP 中的碱 基组成命令已经被用来证明:在被子植物和绿藻的5.8S rDNA 序列中,两者 之间变化比较大的位点集中存在中碱基偏好,但是并不一定在某个序列上产

生变化(Hershkovitz and Lewis, 1996) 。

建树方法
现有的软件中所采用的建树方法已经在某些著作(Saitou, 1996; Swofford et al., 1996a; Li, 1997)中有很详尽的讨论;这部分只是简单地描述一些最常用 的方法。建树方法可以分为两类,每类有两种不同的方法: 11 基于算法的和基于标准的。基于算法的建树方法根据一系列的步骤得 到一个进化树; 而基于标准的建树方法则是根据一些优化的功能对可选的 进化树进行评估。相邻连接方法(NJ)是一个纯粹的基于算法的建树方 法,这个方法只得到一个进化树,这个进化树拥有令人满意的性质,它的 距离附加值接近或者是非常优化的(见下) ;而一个基于标准的距离建树 方法将会根据进化树的附加值优化的标准,对所有可能的进化树(不管这 些进化树是否产生)进行评估。 12 基于距离的和基于特征符的。历史上的和现有的许多关于系统发育的 讨论描述了各种各样的基于距离的和基于特征符的建树方法的效用(比 如,Saitou, 1996: Li, 1997) 。距离建树方法根据一些尺度计算出双重序列 的距离,然后抛开真实数据,只是根据固定的距离建立进化树;而基于特 征符的建树方法在建立进化树时, 优化了每一个特征符的真实数据模式的 分布,于是双重序列的距离不再固定,而是取决于进化树的拓扑结构。最 常用的基于特征符的建树方法包括 MP 和 ML。

距离建树方法

距离建树方法根据双重序列比对的差异程度(距离)建立进化树。如果所有 的起源分歧事件都很精确地记录在序列中(Swofford et al., 1996a) ,那么距离 建树方法将会重构真实的进化树。然而,当序列突变达到饱和时,分歧程度 就会达到上限。一对分歧序列的其中之一在某个特定位点发生突变后,后续 的突变不管发生在哪一条序列,都不会再造成更多的差异。实际上,后续的 变异很可能会使得前一个位点恢复成相等的状态,从而屏蔽掉前一个突变, 因此,绝大多数基于距离的建树方法都会针对这样“不可见”的替换进行修正。 在实际操作中,使用的速率方阵都会很有效地假定:在所观察的相等的碱基 对中,实际上存在一定比例的位点,这些位点经受了多次突变,而且,随着 整个序列差异程度的增加,这些位点的比例也在增加。有些程序(至少是随 意地) 会计算出不正确的距离进行, 比方说, MEGA 程序 (Kumar et al., 1994) 只针对密码子和氨基酸数据会计算出错误的距离;除非序列的整体差异程度 很小,这个程序实质上将会保证给出错误的结果。 双重序列差异使用最大似然方法的取代速率计算得到。最常用的距离建树程 序使用的模型局限于时间可逆模型,只包含很有限的几个取代模型;但是 PAUP 4.0基本上会测试时间可逆模型的所有变化,包括用最大似然方法从数 据中评估得到的实际模型,以及针对非静态数据的 log�det 距离建树方法 所得到的模型。 与最大似然方法相比,距离建树方法的计算强度很小,但是可以使用序列进 化的相同模型,这是它们最主要的优点。这个方法的缺点是屏蔽了真实的特 征符数据。最常用的距离建树方法是“不加权配对组算术方法”(UPGMA, unweighted pair group method with arithmetic mean) 、相邻连接方法(NJ,

neighbor joining) 和对距离进化树的附加值进行优化的方法, 包括最小进化方 法(ME,minimum evolution) 。有些方法被不止一个系统发育软件包引用, 但是在使用时不一定会使用相同的指定参数和(或)进化树优化特征(比如, 树枝交换��见下) 。

不加权配对组算术方法( 不加权配对组算术方法(UPGMA,unweighted pair group method , with arithmetic mean) )
UPGMA 是一种聚类或者说是分类方法��它按照配对序列的最大相似 性和连接配对的平均值的标准将进化树的树枝连接起来。它还不是一种严格 的进化距离建树方法(Li, 1997) 。只有当序列分歧是基于一个分子钟或者近 似等于原始的序列差异性的时候,我们才会期望 UPGMA 会产生一个拥有真 实的树枝长度的准确的拓扑结构(ultrametric; Swofford et al., 1996a) 。正如前 面讨论的那样,在实际问题中很少会遇到这种情况。

相邻连接方法( , 相邻连接方法(NJ,neighbor joining) )
相邻连接算法在距离建树中经常会用到, 而不会理会使用什么样的优化标准。 完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得 到的,分解的步骤是连续不断地在最接近(实际上,是最孤立的)的序列对 中插入树枝,而保留进化树的终端(图9.8) 。于是,最接近的序列对被巩固 了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很 快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。

Fitch� �Margoliash(FM) � ( )

Fitch�Margoliash(FM)方法设法通过把所有可能观察到的距离相对于进 化树中所有可能的路径长度的偏差的平方极小化,将进化树中观察到的双重 距离的合适度极大化(Felsenstein, 1997) 。有一些变量,在怎样对错误进行加 权的处理上不太一样。对变化的估值并非是完全独立的,因为所有的进化树 内部的树枝中存在的错误都至少被计算了两次(Rzhetsky and Nei, 1992) 。

最小进化方法( 最小进化方法(ME,Minimum Evolution) )
最小进化方法先使用同 FM 相同的方式计算出路径长度,然后根据路径长度 优化出最短的进化树;也就是说,它要求将观察到的距离相对于基于进化树 的距离的偏差的平方最小化(Rzhetsky and Nei, 1992; Swofford et al., 1996a; Felsenstein, 1997) 。同 FM 方法不同,ME 方法并不使用所有可能的双重序列 距离和所有可能的相关的进化树路径长度,而是先根据到外层节点的距离固 定进化树内部节点的位置,然后根据这些观察点之间的最小计算误差,对内 部的树枝长度进行优化。于是这个方法声称它消除了 FM 计算的依赖性。

究竟哪一个基于距离的建树程序是最好的
ME 和 FM 似乎是最好的程序程序, 它们在模拟研究中所取得的成绩几乎相同 (Huelsenbeck, 1995) 。ME 在计算机程序中的应用越来越广泛了,包括 METREE(Rzhetsky and Nei, 1994)和 PAUP 都在使用 ME。对于蛋白质数据, PHYLIP 中的 FM 程序提供了最多的时间可逆取代模型, 但是没有对位点内部 的取代速率差异进行修正。MEGA(Kumar et al., 1994)和 METREE 软件包 包括一个针对蛋白质的 gamma 修正,但是只有同一个原始(“p�距离”) 的分歧模型(没有距离修正或者偏好修正)结合时才进行修正,这种方法只

有当分歧很小时才合理(Rzhetsky and Nei, 1994) 。MEGA 也计算同义的和异 义的位点的分离距离,但是只有当没有取代或者碱基频率偏好的时候,以及 没有对位点内部的速率差异进行修正的时候,这个方法才合理。因此,对于 绝大多数数据集而言,对核苷酸数据应用一个更加理想的模型可能会比 MEGA 方法要好。 模拟研究指出,对于一个大范围的进化树形状空间,UPGMA 的可操作性很 差(Huelsenbeck, 1995) 。我们并不赞成使用这种方法,而之所以在这里会提 及这个方法,是因为在现在的出版物上经常会出现 UPGMA 的应用,这一点 可以由当前的出版物中出现的 UPGMA“基因进化树”证明(Huelsenbeck, 1995) 。 很显然,NJ 是最快的程序,并且所产生的进化树同 ME 进化树相比,虽不能 说一样,但也已经非常相近了(Rzhetsky and Nei, 1992; Li, 1997) 。但是,NJ 只产生一个进化树。根据数据结构,有大量不同的进化树可能和 NJ 进化树一 样好, 甚至比 NJ 进化树好得多 (Swofford et al.1996a) 我们中的一个 。 (MAH) 和 D.Hillis(个人通讯)已经各自独立地得到了一些(虽然很少)数据集,对 于这些数据集,NJ 给出的进化树很糟糕;但是使用 PAUP 方法中的“最接近 (closest) ”选项后, 进行逐步加总, 得到了一个较好的距离进化树 (Swofford, 1997) 。

特征符建树方法
除了在所有的分析步骤中都会用到特征符数据以外,基于特征符的建树方法 毫无共同之处。这就使得我们能够评估一个比对中每一个碱基位点对其它所

有的碱基位点的依赖性。最常用的基于特征符的建树方法是最大节约方法和 最大似然方法。

最大节约方法(MP,Maximum Parsimony) 最大节约方法( , )
最大节约方法是一种优化标准,这个标准遵循“奥卡姆剃刀原则(Occam’s razor)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也 最少。在实际应用中,MP 进化树是最短的�也是变化最少的进化树,根 据定义,这个进化树的平行变化最少,或者说是同形性最低。MP 中有一些变 量与特征符状态改变的可行方向不尽相符(Swofford et al., 1996a) 。 为了能够包容取代偏好,MP 必须加权;比如,颠换的变换相对于转换(见上 文)被加权。进行加权的最简单的方法就是建立一个加权步骤方阵,在这个 方阵里,权重用速率的倒数,这个速率是由上面描述的 ML 方法评估得到的。 步骤方阵加权可能会极大地减慢 MP 的计算速度。 如果比对内部的位点确实存在这速率差异,那么 MP 方法就会执行得很不好 (Huelsenbeck, 1995) 。对于这个问题,还没有什么很好的解决方法。有一个 方法,就是对数据集进行修改,使得最终分析的数据集中只包括那些内部差 异性很小的位点,这些位点是由前面提到的似然分析方法判断得到的。更常 见的情况是,MP 分析只简单地屏蔽掉那些高度同形的可疑位点(比如说,某 些序列比对中的第三个编码位点) 另外一个方法是根据引导树中所能观察到 。 的位点变化倾向,对位点进行循环加权。这个“连续逼近”方法在 PAUP 中会 自动简化,但是这个方法的出错的倾向程度取决于引导树的出错程度。 MP 分析期望能够产生大量的 (有时候是成千上万个) 具有相同分值的进化树。

因为这些进化树之间的优化程度相同,所以只有所有进化树都严格一致的分 组才算是得到数据的支持。距离建树方法和 ML 建树方法期望得到一个最简 单的最好的进化树,是因为这些方法的算法中包括了除法和小数,而 MP 建 树方法只是计算离散的步长。对于一个给定的数据集,存在着比最佳的进化 树差不了多少的 ME 进化树或者 ML 进化树, 如果这些进化树严格一致的话, 很可能会产生同 MP 一致进化树多少有些可比性的分解。 不幸的是, 的使 MP 用者传统上都会给出严格一致的进化树(有时候是进化树的一致性,其中有 一个或者两个步骤不太好) ,而 ME 和 ML 用户通常就不会这样做。 现在已经开发了大量的进化树统计量值来描述一个 MP 进化树。除了进化树 的长度外,这些统计量包括各种各样的比例,用以描述同形的数量,比如稠 度指数,或者一个进化树中一个特征符改变状态的平均次数(Swofford, 1990) 。尽管在 MP 分析中仍然经常报告这些指数,但是已经证明这些指数受 到许多人为因素的干扰,比如被分析的分类群的数量。 模拟研究(Huelsenbeck, 1995)已经表明,如果从世系分歧开始的序列进化的 数量远大于世系分离的分歧数量(比如,一个进化树中,终端的树枝很长, 而内部节间的树枝很短) ,MP 的效果同 ME 一样差,比 ML 还要更差。这种 情况会造成“长树枝效应”��长树枝可能会被人工连接,因为累积的非 同源的相似性的数量超过了因为真实的相关性而保留的同源相似性的数量 (Swofford et al., 1996a) 。在这种情况下,特征符加权会改善 MP 的执行效果 (Huelsenbeck, 1995) 。

最大似然方法( 最大似然方法(ML, Maximum Likelihood) )

ML 对系统发育问题进行了彻底搜查。ML 期望能够搜寻出一种进化模型(包 , 括对进化树本身进行搜索) 使得这个模型所能产生的数据与观察到的数据最 相似。 实际上,ML 是从比对的每一个碱基位点衍生出来的。给定一个特定的进化 树和观察到的全部的碱基频率,我们可以计算出似然值,具体方法是要计算 一个位点遵循一个特定取代过程时所得到的变化模式的概率;似然值就是把 在这个特定的取代过程中每一个可能的取代的再现的概率进行加和。所有位 点的似然值相乘就得到了整个进化树的似然值(也就是说,数据集的概率给 出了进化树和进化过程) 。大家可以想象一下,对于一个特定的进化树,数据 集的似然值在某些位点偏低,而另外一些位点偏高。如果进化树比较好,那 么大多数位点的似然值都会较高,因此整个似然值较高;如果进化树不太好, 似然值就会比较低。如果数据集中没有系统发育的信号,所有随机的进化树 的似然值上都会相差无几。 取代模型应该得到优化,以适应观察到的数据的需要。比方说,如果存在着 转化的偏好 (其明显表现为有大量的位点只包含嘌呤或者只包含嘧啶) 那么, , 如果计算数据的似然值时所采用的模型没有考虑偏好的话,其效果显然不如 采用考虑了偏好的模型。同样地,如果有一部分位点确实只包含一种碱基, 而另外一部分位点以相同的概率包含各种碱基,那么,如果计算数据的似然 值时所采用的模型假定所有位点的进化都平等的话,其效果显然不如采用考 虑了位点内部的速率差异的模型。对于一个特定的进化树,改变取代参数就 意味着将改变与之相关联的数据集的似然值;因此,在某一个取代模型下, 进化树可以取得很高的似然值,但是,在另一个取代模型下,进化树所取得

的似然值就可能会很低。 因为 ML 要耗费大量的计算机机时,所以对于一个给定的数据集,想要在优 化取代模型和进化树的同时进行完全的搜索几乎是不可实现的。值得推荐的 是一个很经济的探索式的程序(Adachi and Hasegawa, 1996; Swofford et al., 1996a) 。在这一点上,可能最好的节约时间的方法是前面所说的对取代模型 的 ML 评估(图9.7) 。这个程序可以反复进行,搜索到较好的 ML 进化树, 然后重新对参数进行评估,然后搜索更好的进化树。 随着算法、计算机和对系统发育的认识的进步,ML 标准在分子系统发育分 析中也变得越来越流行。在模拟研究中,如果对由相同的模型产生的数据进 行数据分析的话,ML 做得总是比 ME 和 MP 要好(Huelsenbeck, 1995) 。在 所有的方法中,ML 的计算强度最大,所以在某些情况下,它总是无法实现; 而且, 同样的模拟研究表明在许多情况下, ME 和 MP 方法同 ML 方法的执行 效果一样好(或者一样差) 。

距离方法、 距离方法、节约方法和最大似然方法的差异
距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离, 而其准确大小依赖于进化模型的选择。 然后运行一个聚类算法, 从最相似 (也 就是说,两者之间的距离最短)的序列开始,通过距离值方阵计算出实际的 进化树,或者通过将总的树枝长度最小化而优化出进化树。 用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分 类群之间的观察到的差异。

用于系统发育推论的最大似然方法评估所选定的进化模型能够产生实际观察 到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸) 之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内 部节点上,并且计算每一个这样的序列产生实际数据的可能性(如果两个姐 妹分类群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到现在的 “A”的可能性比起假定原先就是“A”的可能性要小得多) 所有可能的再现 。 (不 仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后 这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。

进化树搜索 进化树搜索
即使是对于一个只有50个序列的系统来说,单一的系统发育进化树的数量也 会随着分类群数量的增长而按照指数规律增长,从而变为一个天文数字 (Swofford et al., 1996a; Li, 1997) 。由于计算能力的限制,现在一般只允许对 很小一部分的可能的进化树进行搜索。 具体的数目主要依赖于分类群的数量、 优化标准(比如说,MP 要比 ML 快得多) 、参数设定(比如说,不加权的 MP 要比加权的快得多; 预置了少量参数的 ML 要比预置大量参数或者对参数 进行同步优化要快得多) 计算机硬件以及计算机软件 、 (对软件的依赖性较小; 但是某些算法要比其它算法快;某些软件允许多线程;某些软件限制内存里 的进化树的数量和种类) 。搜索程序还会受到数据结构的影响:如果数据解析 得很糟糕,那么将会得到较多的“近乎优化”的进化树,这些进化树必须重新 评估以确定其中最优化的进化树。 树枝交换算法不断修整由初始步骤所建立的进化树(Swofford et al., 1996a) 。

这个算法的范围很广,既可以产生所有可能的单一进化树(穷举算法) ,也可 以只评估次要的修改。 有两种搜索方法保证可以找到最优化的进化树:穷举法和树枝�跳跃法 (BB) (Swofford et al., 1996a) 。对于一个很大的数据集,这两种方法都很不 实用。对分类群数量的限制主要取决于数据结构和计算机速度,但是对于超 过20个分类群的数据集,BB 方法很少会得到应用。穷举法要根据优化标准, 对每一个可能的进化树进行评估。BB 方法提供一个逻辑方法,以确定那些进 化树是值得评估的,而另一些进化树是可以简单地屏蔽掉的。因此 BB 方法 通常要比穷举法快得多。 。启发式现 绝大多数分析方法都使用“启发式”的搜索(Swofford et al., 1996a) 搜索出相近的次优化的进化树家族 (“岛屿”) 然后从中得到优化解 , (“山顶”) 。 不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程 序(TBR,tree bisection-reconnection,进化树对分重接)先把进化树在每一 个内部树枝处劈开, 然后以任意方式将劈开的碎片重新组合起来 (Swofford et al., 1996a) 。最快的算法只是检查一下相邻终端的不太重要的重新组合,因此 倾向于找到最近的岛屿的山顶。 有许多不同的软件会执行进化树的搜索算法。 PAUP 允许对搜索选项进行全范 围的设置,从最肤浅的到最详尽的;而且,对于一个简单的定制搜索,它允 许使用不同算法的任意组合, 其中每一个算法都有多个可供用户定义的参数, 同时还提供评估搜索过程和中途修改搜索进程的方法。 PAUP 还可以对进化树 岛屿了如指掌,掌握岛屿被命中的次数。

要想改善搜索效率和进化树的优化,可以尝试大量不同的策略。比如说,有 些分析方法要耗费大量的机时和精力才能找到岛屿;要到达同样的效果,我 们可以先制造各种各样的“起始”进化树,这些起始进化树满足一个初始标准, 然后用 PAUP 将这些起始进化树排列成岛屿,最后用更加彻底的算法进行评 估。 降低搜索代价的一个最好方法就是对数据集进行剪除。比方说,从数据集本 身或者从预置的搜索中,我们可能会很明显地知道一个由五个终端组成的聚 集是不可分解的,并且这些终端的排列并不影响剩下的拓扑结构,而且对这 些终端进行分解并不符合数据分析的目的;这时,如果在分析中除去这个聚 集中的四个终端,将会把搜索任务简化几个量级。 每一种分析都是独一无二的。影响对优化搜索策略(数据量,数据结构,时 间量,硬件,分析目的)进行选择的因素太复杂,使得我们无法推荐一个简 单可行的处方。因此进行搜索的用户必须对他的数据非常熟悉;他们的脑海 里必须要有明确的目标,了解各种各样的搜索程序,了解他们的硬件设备和 软件的能力;他们必须能够发展他们自己的协议。

建立并搜索进化树的其它方法 建立并搜索进化树的其它方法 搜索
上述方法在当前的应用中是最广泛的。当然我们还可能会在别处注意到,还 有大量的建立和搜索进化树的其它方法(Swofford et al., 1996a; Li, 1997) 。这 些方法包括 Wagner 距离方法和亲近方法(距离转化方法) ;包括 Lake 的不变 式方法(一个基于特征符的方法,它选择的拓扑结构包含一个意义重大的正 数以支持颠换) ;包括 Hadamard 结合方法(一个精细的代数方阵方法,对距

离数据或者观察到的特征符进行修正) ;包括裂解方法(这个方法决定在数据 中应该支持哪一个基于距离的可选的拓扑结构) 。四重奏迷惑(Quartet puzzling)方法可以被 ML 建树方法所应用,这个算法相对而言是个较快的进 化树搜索算法。

确定树根
这里所描述的建树方法所产生的都是无跟树(也就是说,进化树没有进化的 极性) 。为了评估进化假说,通常必须要确定进化树的树根。确定系统发育进 化树的树根并不是一个简单的小问题(Nixon and Carpenter, 1993) 。 对于序列数据,如果你接受一个分子钟,那么树根总是出现在横跨整个进化 树的最长跨距的中点(Weston, 1994) 。分子进化是否有真正意义上的分子钟, 仍然是个有争议的问题(Li, 1997) ,但是不管树根在什么地方,绝大多数基 因进化树都显示了非分子钟的行为。因此,通常都是使用外在的证据来确定 树根究竟放在何处,也就是说,要决定这个进化树通过什么位置同外围的系 统发育集团相连接;这些外围集团可能是那些与被分析的物种/序列没有最相 近的共同祖先的任意的物种/序列。但是外围集团的树根确定问题将其推入一 个两难的困境之中:同内部集团很相近的外部集团很可能只是内部集团的一 部分,只是被错误地排除在外了。一个明显距离很远的外围集团(比方说, 分析植物时用到的一个真菌种)很可能会拥有一个分歧非常大的序列,以至 于把这个序列同内部集团放在一起将要受到长树枝效应的影响(见上) 。 一个确定树根的聪明一点的办法就是分析时加入一个复制的基因(Baldauf et al., 1996; Lawson et al., 1996) 。如果来自于绝大多数物种或者所有物种的所有

的平行基因在分析时都被包含进去,那么从逻辑上我们就可以把进化树的树 根定位于平行基因进化树的交汇处,当然要假定在所有进化树中都没有长树 枝问题。

评估进化树和数据
现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性 (Swofford et al., 1997) 。对于前者,最流行的方法是用数据信号和随机数据 作对比实验(偏斜和排列实验) ;对于后者,可以对观察到的数据重新取样, 进行进化树的支持实验(非参数自引导和对折方法) 。似然比例实验可以对取 代模型和进化树都进行评估。

随机进化树(偏斜实验) 随机进化树(偏斜实验)
模拟研究表明,通过随机的数据集所产生的随机的 MP 进化树的长度的分布 是对称的,但是使用系统发育信号的数据集,其分布将是不对称的(图9.9; Hillis and Huelsenbeck, 1992) 。在偏斜实验中,g1统计的临界值随着分类群数 目的不同和序列中位点的不同而不同。这个实验并不评估一个特定的拓扑结 构的可靠性,而且这个实验对其它的随机数据集中所呈现的信号都敏感,哪 怕只是很少的一点。如果数据很明显地支持某些分组,而这些分组中的分类 群被有选择地删除, 那么这个实验可以用来决定系统发育信号是否还保留着, 当然至少要为测试提供10种不同的特征符和5个分类群。PAUP 中包含了这个 程序。

随机的特征符数据(排列实验) 随机的特征符数据(排列实验)

随机数据方法决定了一个从真实数据得到的 MP 进化树或者其中的一部分是 否可以偶然得到。实际上,数据并非真正地随机化了,只是在每一个比对列 中以不同次序排列,使得初始数据的共变性被消除了;结果产生了一个非随 机序列的序列比对;正确地说,这些序列中的每一个位点都是从那些在整个 比对中占据这个位点的碱基群体中随机得到的。排列结尾几率实验(PTP, the permutation tail probability test) MP 进化树的分值和那些通过对每一个位点 对 都进行大量的排列组合多得到的数据所推算出的进化树的分值进行比较,从 而决定在原始数据中是否存在着系统发育信号。一个依赖于拓扑结构的实验 (T�PTP, topology-dependent test)对特殊的进化树的分值进行比较,从而 决定这些差异是否可以产生偶然性;这个方法并不评估这个进化树或者其中 的一部分是否正确(Faith and Trueman, 1996; Swofford et al., 1996b) 。值得注 意的是, T�PTP 实验看来似乎是进一步地确认了进化树中那些同 MP 进化 树很接近但是并不在其中的一些分组;这是因为这个方法探测集体的信号, 这些信号可以把一个分类群放置在正确(如果不能说是准确,至少也是近似) 的位置;结果可以通过附加的程序使用相关的数据子集进行调整(Faith and Trueman, 1996) 。PAUP 中包含了这个程序。

自引导方法
自引导方法是对进化树重新取样的评估方法,可以对距离建树方法、节约建 树方法、似然进化方法以及衍生出的其它任何方法进行评估。这个方法是在 1979年(Efron, 1979)提出的,并且由 Joe Felsenstein 将其引入(Felsenstein, 1985) ,作为系统发育分析中的进化树评估方法。典型的自引导分析结果是一 个数字,这个数字同一个系统发育进化树的一个特定树枝相关,而这个系统

发育进化树则给出了支持单源进化分支的自引导的重复比例。 那么在实际操作中应该怎么做呢?自引导方法的操作过程可以分为两个步 骤,第一步先从原始数据集中产生(许多)新的数据集,然后经过计算得到 一个数值,表征一个特定的数值(比方说,一个分类群)在进化树中出现的 次数的比例;这个数值通常被称为自引导数值。从原始数据集中产生新的数 据集的具体做法是重新取样,即从原始数据集中随机地“可以替换”地抽取各 个列中的特征符作为新的样本。“可以替换”的意思是说每一个位点都可以重 新取样,其抽取几率同其它任何位点的抽取几率都一样;结果是每一个新建 的数据集同原始数据集的位点总数相同, 但是某些位点重复了两次或者三次, 而某些位点则丢失了;当然新建的数据集也有可能同原始数据集完全相同 ��或者走向另外一个极端,只有一个位点被反复抽取,总数达到500 次,而原始数据集中其它499个位点都被丢失了。 虽然自引导评估方法已经成为整个系统发育分析中的一个普遍手段,但是对 于这个方法究竟计算了什么仍然有一些争论。刚开始的时候,有人提议说自 引导数值计算了重合性(Felsenstein, 1985) 。在最近的阐述中,自引导程序被 认为是计算了精确性��这个生物学相关的参数给出了得到真实的系统 发生史的可能性(Felsenstein and Kishino, 1993) 。模拟研究表明,在合适的条 件下(各种替换速率基本相等,树枝基本对称) ,如果自引导数值大于70%, 那么所得到的系统发育进化树能够反映真实的系统发生史的可能性要大于 95%(Hillis and Bull, 1993) 。同理,如果条件不是很合适,那么如果自引导数 值大于50%, 则精确性的评估就会过高 (Hillis and Bull, 1993) 在某些条件下, 。 如果自引导数值较高,可能会使系统发生史看起来很好,从而得出错误的结

论。

实际的考虑
如果样本较小,这个技术是不会被用到的。如果一个特定的分组不太可信的 话,那么就可以使用自引导方法进行评估,以确认将这个分组并入一个大的 单源分组中是否可信(Sanderson, 1989) 。也可以在实验中使用自引导方法, 这个实验的具体做法是:每次删除一个内部树枝,然后根据剩余的内部树枝 重新计算进化树,这样做的目的是为了收集分歧顺序信息,而这些信息在整 个数据集中都是很不明确的(见实例:Leipe et al., 1994) 。

对折方法
对折方法同自引导方法相似,都是要重新进行取样。但是,与自引导方法中 产生“可以替换”的新的数据集不同的是,对折方法在对原始数据集重新取样 时,是从每一个复制中除去一个和多个比对位点;结果是每一个对折的复制 品都比原始数据集要小,而且不会包含重复的数据位点。虽然绝大多数论文 都假定通过不同的技术方法评估所得到的可变性都应该很相似 (Swofford and Olsen, 1990; Swofford et al., 1996a) ,实际上对折方法的使用频率远低于自引 导方法。尽管如此,对折方法仍然有一定的市场,象 PAUP 和 PHYLIP 这样 的程序里都包含有这个选项。

带参数的自引导方法
带参数的自引导方法同不带参数的自引导方法不同,前者使用了模拟的但是 仍然真实的复制品,而不是虚假的复制品。在进行系统发育的序列分析中,

与原始数据集大小相同的复制数据集是通过一个特殊的序列进化模型得到 的,数据集还包括根据这个模型得到的最佳进化树拓扑结构(Huelsenbeck et al., 1996a) ,然后就可以使用感兴趣的方法对每一个数据集进行分析。对实验 进化树的树枝是否支持的判定方法同无参数的自引导方法大体相同。 作为一种还没有被其它方法(诸如进化树中所显示的分类群中的任何分组的 单个谱系) (Huelsenbeck et al., 1996a, 1996b)检验过的测试假定,带参数的 自引导方法还不能算是无参数的自引导方法之外的一种选择。在每一个复制 品的分析中,“真实的”进化树(假定能够产生模拟数据的进化树)的分值可 能会比每一个复制品的最好的进化树的分值都要大(或者小) 。分值差异图则 显示了样本偏差的一个真实的正规分布。任何期望的可选的进化树拓扑的分 值差异的重要价值可以由这个正规图来决定。带参数的自引导方法可以同任 何建树方法协同使用。目前,这个方法的局限因素在于程序生成模拟数据的 可行性。有一个程序,能够在以下情况下模拟序列数据:模型包括两个取代 类型(转化和颠换) ,碱基频率不相等,对于内部位点的速率差异设定或者没 有设定 gamma 修正。这个程序可以在作者的 Web 站点上找到,这个站点由 Berkeley 维护(参见本章最后所附的 Internet 资源列表) 。

似然比例实验
正如方法名称所暗示的那样,似然比例实验适用于 ML 分析。评估一个次优 化的似然值对于最优化模型中的正规的误差分布极为重要。在理想情况下, 误差曲线被假定为一个 chi-平方分布,因此实验统计值应该是最优化数值和 实验数值之差的两倍,而其自由度则是不同的参数的数目。

应用 chi�平方实验来选择系统发育进化树存在不少问题,尤其是因为“参 数空间的不规则性”(Z.Yang et al., 1995) ,但是如果取代模型之间的参数数目 已知的话,这个方法可以用来评估取代模型的最优性。一旦我们用上述最大 似然程序评估了一个取代模型和进化树,我们就可以用较少的参数对这个进 化树进行评估(比方说,把位点内的速率设置为相同:图9.7) 。

Kishino�Hasegawa 实验
如果给定了伴随着决定进化树误差的不确定性,另外一个方法就可以决定与 比对中每一个位点相联系的取样误差(Kishino and Hasegawa, 1989) 。这个程 序在 PAUP 中执行,可以用来测试一个特定的次优化的 ML 或者 MP 拓扑结 构同最优化的拓扑结构相比是否显著不同,当然必须假定用来产生最优化的 进化树的模型是正确的。这个方法不能被用来评估任意选择的拓扑结构:因 为不同的拓扑结构可能会拥有不同的似然功能,在某个模型下,一个统计学 意义较差的进化树在另一种模型下,其统计学意义可能会变得很好。可以把 本方法同带参数的自引导方法结合起来(模型和进化树已经预先最优化了) , 以避免这个问题(见 Sullivan et al., in press) 。

约束进化树搜寻
评估进化树的一个最有效的方法是比较无约束搜索和有约束的搜索,约束条 件是必须搜索同一个特殊拓扑结构相联系的最优化进化树。除了比较简单分 值外, 还可以把约束进化树同排列实验、 似然比例实验、 Kishino�Hasegawa 实验以及带参数的自引导评估方法结合起来。

系统发育软件

PHYLIP
PHYLIP 是一个包含了大约30个程序的软件包,这些程序基本上囊括了系统 发育的所有方面。PHYLIP 是免费软件,并且可以在很多平台上运行(Mac, DOS, Unix, VAX/VMS,及其它) 。根据其作者 Joe Felsenstein(来自于 the University of Washington)所介绍的,PHYLIP 目前已经是最广泛使用的系统 发育程序。 PHYLIP 是一个命令行程序,没有 PAUP 或者 MACCLADE 程序那样的鼠标 点击的界面。软件的文档写得非常好,很容易理解,命令行界面也很简明。 如果想使用某一个程序, 只要键入程序名称就可以了, 程序界面可以从“infile” 文件中自动读取数据。然后,使用者可以从选项菜单中选择选项,或者直接 接受默认值, 然后程序会将结果输出到一个叫做“outfile” (也可以是“treefile”) 的文件中去。如果另外一个程序还要读取这个输出文件,就必须将“outfile” 文件改名(改为“infile”) 。图9.10给出了建立一个自引导的相邻连接的进化树 的步骤的几个要点。接下来的部分我们将讨论一些用 PHYLIP 程序推导进化 树的细节问题。

分析蛋白质数据的程序
PROTDIST 程序计算蛋白质序列比对的距离矩阵。这个程序允许使用者从三 个氨基酸取代的进化模型中选择其中之一。最简单的也是最快的(也是最不 理想的)模型假定每一个氨基酸编程其它19中氨基酸的机会都是均等的。第 二种是类别模型,在这个模型中,氨基酸分布在不同的分组中,按照转换的 不同类别(转化成本组的氨基酸或者其它分组的氨基酸)进行评估。推荐使

用第三种(默认的)方法,这个方法使用一张通过观察氨基酸转换得到的经 验表,即 DayHoff PAM 001方阵(DayHoff, 1979) 。在 PHYLIP 文档中和最新 出版物(Felsenstein, 1996)中可以找到详细资料。 PROTPARS 程序计算蛋白质序列的似然值。这个方法使用的进化模型同 PROTDIST 程序中使用的进化模型不同,前者在评估观察到的氨基酸序列的 转化的可能性时,考虑到潜在的核苷酸序列的转换。特别地,它作出如下(富 有生物学意义的)假定:同义转化 [比方说:GCA (alanine) GCC (alanine)]

比非同义转化的发生频率要高。这样,举个例子来说,如果两个氨基酸之间 的转化需要在潜在的核苷酸水平上进行三次非同义转换,那么这个转换的可 能行比起那些在潜在的核苷酸水平上只要进行两次非同义转换和一次同义转 换的氨基酸转化的可能性要小。PROTPARS 不提供氨基酸转化的经验值选项 (象 PAM 方阵那样的) 。

分析核酸数据的程序
DANDIST 计算核苷酸序列的距离矩阵,然后运行 NEIGHBOR 或者 PHYLIP 软件包中的其它距离矩阵程序计算输出结果, 产生进化树。 DANDIST 允许用 户从三种核苷酸取代模型中选择其中之一。 比较老的 (1969) Jukes and Cantor 模型同 PROTDIST 程序中的简单模型很相似,前者假定所有的核苷酸取代频 率都一相等。比较近的(1980)Kimura 双�参数模型与之也很相似,但是 它允许用户把颠换的权重设置得比转换的权重要高。PHYLIP 也包含 DNAML, 这是一个针对核苷酸数据的最大似然程序。 因为这个程序执行起来 相当慢,所以下面将描述一个推荐使用的程序��Gary Olsen’s

fastDNAml 程序(Olsen et al., 1994) ,这个程序是 DNAml 的“姐妹”程序。

PAUP
开发 PAUP(Swofford, 1997)的目的是为系统发育分析提供一个简单的,带 有菜单界面的,与平台无关的,拥有多种功能(包括进化树图)的程序。在 苹果机(Macintosh)上使用过 PAUP 程序(版本3)的人对这个程序的菜单界 面都会很熟悉,虽然这个版本已经不再发行了。PAUP 3.0只建立于 MP 相关 的进化树及其分析功能;而 PAUP 4.0已经可以针对核苷酸数据进行与距离方 法和 ML 方法相关的分析功能,以及其它一些特色。

获取和编译程序
在商业版本发行之前,现行的出版物中,有成打的分析使用了 PAUP 4.0测试 版本(由原作者通过 blue@onyx.si.edu 提供) 。菜单界面的测试版本已经在 Macintosh 68K、PRC 计算机和微软的视窗操作系统上编译通过。命令行版本 已经在 Sun Sparc、Supersparc、DEC Alpha(OSF1和 OPENVMS) 、SGI(32 位和64位)以及 linux 上编译通过。 初学的用户应该将其中一个菜单版本浏览一遍。在这些版本中也可以使用命 令行,这样会使得命令教程会变得容易一些。通常而言,命令都有缩写。比 如,要执行启发式进化树搜索的命令可以键入“hs[earch]”(大小写不敏感;括 弧内的字符为选项) 。而且,因为文件在各个平台之间都是可移植的,菜单版 本可以用来测试数据文件。 如果希望在一个很快的 Unix 机器上跑一个分析程 序,这个协议就显得非常重要。如果文件格式出错,菜单版本不仅仅报告文 件格式的错误,而且还会打开文件,将错误的地方高亮度显示。

数据格式
PAUP 使用一种称为 NEXUS 的数据格式,这种格式还可以被 MACCLADE 程序使用, 当然 PAUP 也可以输入 PHYLIP, GCG-MSF, NBRF-PIR, HENNIG86 数据格式以及文本比对(形如“{ name } <tab or space> { same-length sequences } <ret>”的列表,以“;<ret> end”结束) 。Sequencher(基因密码有限 公司) Sequin 程序可以输出 NEXUS 格式。 和 其它格式的比对序列 (CLUSTAL, FASTA, GDE 等等) 可以通过 ReadSeq 程序将其转化为 NEXUS 格式。 如果使 用 ReadSeq 程序,必须为每个单独的序列(分类单元)设计一个不超过八个 字符的名字,因为程序会自动截取过长的名字。PAUP 中的名字可以无限长, 但是每一个名字必须唯一。比对块(比方说,就像 MSF 文件)可以由空格分 开,作为更好的跟踪序列的位置。比对可以是连续的,也可以是较差存取的。 PAUP 文件中可以在方括号中写明注解和注释 (比方说, 比对中基本位置的标 记) PAUP 可以识别 IUPAC 核苷酸的模糊密码, 。 但是这些密码在进行距离和 ML 分析时被看作是丢失的数据。 PAUP 文件中的数据块可以包含附加的最优化信息,比如特征符和序列标签, 丢失数据的定义以及特征符集和特征符权重集的定义;其语法同 PAUP 3.0相 同,并且可以通过帮助文档进行交互式查询。一个 PAUP 文件还可以包含假 定和进化树块。这些块的格式同 MACCLADE 程序所使用的格式基本相同, 只有若干差异(Maddison and Maddison, 1992) ;举个例子,MACCLADE 不 能识别空位模式,而空位模式在 MP 分析中将会把空位看作是附加的特征符 状态(FORMAT<space>GAP= { character } <space> GAPMODE=newstate<space> { other format options };) 同样地, 。 PAUP 会忽略

一些 MACCLADE 数据选项。 在某些情况下,很南对数据进行手工格式化,这时就可以用菜单界面或者交 互式的 MACCLADE 程序输出正确的格式文件。举个例子,可以通过 PAUP 菜单界面创建“假定集”。假定中可以包含一个外围集团的说明规范、特定分 类群的排除以及特征符,如果是 MP 分析,还可以包含特征符权重和特征符 类型的说明规范。假定还可以存储为一个合适的格式文件;打开一个数据文 件的时候,就可以加载这个文件,或者,可以把注释粘贴到一个早先创建的 文件中,以避免在并发的通话中需要将其加载。 PAUP 也可以读取 PHYLIP 进化树的描述 (从 PHYLIP 或者 CLUSTAL 输出) , 其中所提供的数据将被粘贴到一个 NEXUS 文件中的一个 PAUP 格式(begin trees; <ret>utree= { tree name } <space> { tree description };<ret>end;) 的进化树 块中。但是,PAUP 数据文件必须被激活,并且在 PHYLIP 树中必须包含确切 的分类群。PAUP 会输入拓扑结构,以及优化的 PHYLIP&#0;或者 CLUSTAL&#0;衍生的树枝长度(命令为:gett[ trees ] /file- { treefile } st [ oredbrlens ]) 。

建立进化树
目前 PAUP 中的进化树建立功能包括 MP 方法,如果是针对核苷酸序列,还 有距离方法以及 ML 方法,使用的是 fastDNAml 算法(Olsen et al., 1994) 。而 且,PAUP 执行 Lake’s 不变式方法(Swofford et al., 1996a; Li, 1997) 。每一种 建树程序都允许使用多种的选项。 选项包括任意特征符权重方案的说明规 MP 范。 距离选项包括对 NJ, ME, FM (见 PAUP 发行附注 re: PHYLIP) UPGMA 和

程序的选择。全范围的选项和他们的当前树枝可以通过菜单或者命令行进行 查询(节约方法键入:pse [ ttings ] ?;距离方法键入:dse [ ttings ] ?;似然方 法键入:lse [ ttings ] ?;。距离方法和 ML 方法都有关于取代模型的详细的说 ) 明规范(取代数值,gamma,以及不变位点的参数,假定相等,或者指定数值, 或者经验的碱基频率) 。任何进化树的这些参数都可以得到评估,只要设置参 数数值为“est [ imate ]”,并且用内存中一个期望使用的进化树执行“des [ cribe tree ]”命令(图9.7) 。 根据同 PAUP 4.0测试版本一起发行的附注所说的, “PAUP*所找到的进化树的 似然值通常都会同 PHYLIP 的一样高甚至更高[也就是说,更加好 ]”(这不仅 是因为 PAUP 对进化树进行重新排布时更加广泛,而且也是因为因为它对树 枝长度的迭代的收敛标准更加严格) 。 不管使用哪一种建树方法, PAUP 都提供了多种的进化树搜索选项。 这些选项 包括产生初始进化树(启动进化树)的算法规范:NJ,逐步相加,或者输入进 化树。逐步相加的算法也提供大量的选项,包括分类群“原态”的加和(分类 群按照文件顺序相加) :最接近的,最遥远的,或者对任意数目的复制品都是 随机的。 所有逐步相加算法的选项都考虑到了部分进化树的任意的最大数目, 这些部分进化树是要保留下来并且在分类单元相加时进行扩建的。增大这个 数目(比方说,增大到100)也就意味着增大了起始拓扑结构的多样性,即使 他们并不是随机的。 一个随机的相加策略是默认的搜索策略的有用的补充(最近的相加,TBR 交 换,保存所有最好的进化树) 。在随机搜索中,有大量的复制品可以同较快的

NNI 交换算法相结合。对于 MP 分析,可能存在这大量的长度相等的进化树, 因此搜索时应该指定从每一个复制品中只保存一部分进化树,这些进化树同 较慢的搜索的分值相当或者更好。而且,次优化的进化树的数目(这些进化 树将会被交换,以寻找更好的进化树)应该受到限制,可以通过设定 MAXTREES 将其降至一个较小的数目(比方说,10) 。通过这个策略,我们 在浏览“进化树空间”区域时(这些区域很可能在较慢的搜索中被丢失) ,有时 候会找到一些较好的进化树或者找到额外的唯一的最优化的进化树。可以指 定随机相加的种子,但是默认值总是一样的。因此,除非更换种子,重复随 机相加的搜索只能得到同样的结果。

评估进化树
对于距离方法、MP 方法和 ML 方法,PAUP 执行无参数的自引导方法和对折 方法,在执行过程中用到了这些建树方法的所有可用的选项。除非另外指定, 所有的自引导方法都才能够同样的种子开始(也就是说,重复同样的自引导 分析,其结果相同) 。如果自引导数值大于50%,则数值将会被绘制在进化树 上;如果自引导数值处于50%和任何指定的下界之间,则这些数值将从表格 输出中决定。 对 MP 方法进行自引导分析或者对折分析时, MAXTREES 应该设为10和不超 过100之间的一个数。这时因为,MP 进化树中分解性较差的那部分在用重新 取样得到的数据进行操作时,其分解性通常会更差;因此,一个复制品所找 到的相同长度的进化树的数目很可能是一个天文数字。因为那些并不能够被 全套数据集很好地支持的进化树树枝的自引导数值或者对折数值不会很高,

所以,对 MAXTREES 加以限制(即便是有一些)不会对结果带来多少负荷, 尤其是当复制品的数目增大到比方说1000的时候。 另外,PAUP 执行 Kishino&#0;Hasegawa 实验以比较 MP 或者 ML 进化树(见 发行附注 re: PHYLIP) ;计算多个进化树的四种类型的一致性(通常是对多 个长度相等的 MP 进化树进行操作) ;计算 MP 进化树的逐步差异;评估指定 分区之间的位点的信号冲突(比方说,在总和分析中,核内序列数据和细胞 器序列数据) 。 在 PAUP 中有不同的方法来确定一个约束进化树,但是最简单的方法是使用 “loa [ d constraints ]”命令, 从任何进化树文件或者任何数据文件中的进化树块 中把一个或者多个进化树的定义输入到约束进化树缓冲中去。选择约束进化 树要限定“hs [earch ]”命令。如果使用菜单,这个过程会很简单;也可以通过 “help loa [ dconstr ]”和“help hs [earch ]”命令查询命令行的语法。

其它特色
许多(但不是所有的)PAUP 命令选项都是触发开关,因此在一次通话中一个 已经设定的选项保持激活状态。在执行一个新命令或者程序之前,特别是在 执行一个包含很多不同程序和数据集的复杂的会话之前,查询当前的设置是 非常有用的;查询可以使用菜单,也可以在合适的地方直接键入命令 “{ command-name }<space>?”。 PAUP 拥有一额外的附加的特色,在这里我们之涉及到其中的一部分: (1) 、 为画图、 打印或者将 PICT 文件进化树 (包括 PHYLIP 或者 CLUSTAL 进化树; 见图9.1)输出为若干种格式(但是,遗憾的是,不包括 TreeDraw、

PHYLODENDRON 和 TREEVIEW 的辐射图)的基本的图形特色; 、一个 (2) 能够编辑数据文件和日志文件的文字编辑器, 这个编辑器可以分成四个面板, 以浏览一个很长的比对或者日志的不同部分; 、将输出存入一个新的日志 (3) 文件,或者将输出附加到一个已经存在的文件中去; 、使用外围集团、指 (4) 定的祖先、指定的祖先状态或者中点方法确定进化树的树根; (5) 、计算 MP 和 ML 方法中特征符状态的重新构建(如果这个程序使用 ML,精确度可能 会好一些, 但是非常慢, 而且对于超过100个不同位点和50个分类群的数据集, 几乎是不可实现的;输出结果可以被用来对一个进化树的变化进行手工标 记)(6) ; 、序列之间双重碱基差异的总和(现在叫做“二核苷酸频率”,当然 以后的版本可能会用其它名字) 。

其它程序
除了 PAUP 和 PHYLIP 以外,还有其它一些系统发育程序,这些程序有一些 独到之处,但是程序在处理过程和可移植性方面通常都有很多限制。这些程 序包括 FastDNAml, MACCLADE, MEGA plus METREE, MOLPHY 和 PAML。

FastDNAml
FastDNAml(Olsen et al., 1994)是一个独立的最大似然建树程序。虽然它还 没有成为当前版本的 PHYLIP 软件包中的一员,但是它的输入输出约定同 PHYLIP 在很大程度上都是相同的,而且 FastDNAml 和 PHYLIP’s DNAML 的结果非常相似,甚至完全一样。FastDNAml 可以在并行处理机上运行,而 且它还自带了大量有用的脚本(尤其是关于自引导以及打乱序列输入顺序的 脚本) 。要想充分利用这个程序,就必须有一定的 Unix 知识。REP Web 站点

公布了 Unix 和 VAX/VMS 平台的程序源码,而通过 FTP 可以获得 Power Macintosh 版本的程序源码(见本章结尾的列表) 。

MACCLADE
MACCLADE(Maddison and Maddison, 1992)是一个交互式的 Macintosh 程 序,能够对进化树和数据进行操作,能够研究特征符的系统发育行为。程序 使用的是 NEXUS 格式, 它也能够读取 PAUP 格式的数据和进化树文件。 PAUP 文件中的一些信息会被 MACCLADE 忽略(比如,gapmode,空位模式) ,但 是 PAUP“假定”块中的信息将会被 输入,其中包括特征符权重和特征符集以 及分类群集。PAUP 和 MACCLADE 文件仍然存在着一些细微的差别;因此, 用 MACCLADE 编辑 PAUP 文件或者用 PAUP 编辑 MACCLADE 文件时,需 要将文件保存为一个新文件,从而保留原文件,使之不被改动。MACCLADE 还可以读取 PHYLIP 文件、NBRF-PIR 文件以及文本文件(见上) 。可以使用 任何方法产生进化树,但是 MACCLADE 的功能是严格地基于节约方法的。 举个例子,程序允许使用者追踪任意进化树上的每一个单独特征符的进化轨 迹。不管怎么说,MP 和 ML 重新构建的功能是不同的,而且 ML 功能据称更 加实际一些(Swofford et al., 1996a) 。进化树的拓扑结构可以通过拖动树枝进 行操作,而点击树枝则会在进化树的对称性上产生审美的修饰。 MACCLADE 包括如下一些同序列分析相关的附加的特色: 13 能够方便地编辑模糊区域的数据编辑器,因为序列块可能会被转变为 丢失的数据符号。 14 RNA 或者 DNA 翻译成

相关文章:
系统发育分析2011.5.23
生物信息学在系统发育分析中的应用(自己原创) 生物信息学在系统发育分析中的应用(自己原创) 作者: yyn0452 收录日期: 2009-06-25 发布日期: 2009-06-25 摘要:...
智力低下的诊断与评估(2011.2.23)
智力低下的诊断与评估(2011.2.23)_军事/政治_人文...染色体分析、垂体、 甲状腺、性腺、肾上腺功能测定、...判断智力发育水平, 适用于 5~12 岁儿童智力筛查。...
2011.5.23教案
2011.5.23教案 隐藏>> 一.课前准备: 课前准备: 1. 点的平移,对称及旋转 在如图所示的平面直角坐标系中点 A(2,3) (1) 将点 A(2,3)向右平移 3 个单...
资讯考勤系统分析5.23
资讯考勤系统分析5.23 考勤系统模版考勤系统模版隐藏>> 1 资讯考勤系统分析 —...状态 查询 新增 领导批语 2011.5.4 2011.5.5 2011.5.6 2011.5.7 2011....
2011.5供应链管理试题分析
2011.5供应链管理试题分析_管理学_高等教育_教育...C)、平均库存 D)、仓库建设费用 E)运输成本 23....第七章第三节 CRM 系统的主要功能及模块组成 29....
软件工程复习题(2011年5月23日修订版)
软件工程复习题(2011523日修订版) 暂无评价|0人阅读|0次下载|举报文档 ...67、分析过程就是(提取系统的需求)的过程,是指为了满足用户的需求,系统必须( ...
2011.5.23-《一体化机械故障诊断与维修技术》模块划分
2011.5.23-《一体化机械故障诊断与维修技术》模块划分 隐藏>> 《一体化机械故障...2. 3. 4. X62W 型万能铣床主传动系统 主轴箱的结构 主轴部件的维修 变速...
2011年5月三级心理咨询师真题理论和技能带答案
20115月三级心理咨询师真... 23页 免费如要投诉...(D)妄想心境 51、精神发育迟滞形成的原因是( (A)...(A)系统误差 (B)随机误差 (C)恒定效应 (D)概...
2011年5月三级心理咨询师真题及答案
(C)被洞悉感 (D)妄想心境 51、精神发育迟滞形成...(A)系统误差 (B)随机误差 (C)恒定效应 (D)概...暂无评价 23页 免费 20115月心理咨询师(三......
更多相关标签:
系统发育树怎么分析 | 系统发育分析 | 系统发育树分析 | 分子系统发育分析 | 如何分析系统发育树 | 系统发育树 | 胎儿神经系统发育时间 | 系统发育 |