77范文网 - 专业文章范例文档资料分享平台

PAML一般使用操作(2)

来源:网络收集 时间:2019-01-03 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

1. 作者在Codeml中进行比较的两个模型比较有:M1a(Nearly Neutral)和M2a(Positive Selection);M7(beta)和M8(beta&ω)。

2. 作者认为M3对于正选择的LRT检测并不是十分适合,并不推荐适用M3模型。 使用似然比率检测可以验证正选择(Testing positive selection using the likelihood ratio test)。作者推荐使用二到三种LRT来验证正选择。第一个检测是比较M1a和M2a,

第二个检测是比较M7和M8。 Gamma分布中形状参数所表示的含义: 1. α> 1,大多数位点的替换速率在1附近,但有少数位点具有比较高或比较低的替换速率。曲线形状为 bell-shaped 2. α→∞,表明所有的位点具有一个相同速率。 3. α ≤ 1,表明大部分位点的替换速率比较低,或接近于不变,可是有一些位点具有比较高的替换速率。曲线形状为 L-shape。 PAML的一个重要功能就是检测基因是否受到正选择,即适应性选择。但是现在用于估计适应性选择的方法,忽略了氨基酸的化学性质,这样得出的结果是不准确的,作者表示,直接通过dn和ds的比较来确定受到什么样的选择压力,是不准确的。 PAML中的无效模型(null model)是指不允许任何位点的ω值大于1。PAML中null model是不允许w值大于1,如果null model成立,则w小于1,基因受到负选择;如果null model不成立,则w大于1,基因受到正选择。研究表明,通过比较两个点模型,而得到的结果尤其可靠。 Ancestral reconstruction 为探索数据提供了一个直观的方法,他被用于大量的数据分析,例如,评估不同谱系中的选择压力。但是由于这种方法的简单和直观,会产生很多错误。大多数重建原始序列的工作都忽略了这样一个事实,即使用假数据(pseudo-data)代替真实观察到的数据(real observed data),并且仅仅使用处于最佳状态(optimal character states)的一些特征,而忽略未处于最佳状态(suboptimal states)的一些特征,从而产生一些系统上的偏差(systematic biases)。如果数据中的ds区域饱和的话,那么会导致我们低估ds,从而使dn/ds的值偏高,即 ω的值偏高。进化距离估计中有关序列间隔的处理进化距离估计中,排列时的间隔导致了某些复杂的问题。同时,由于实验上的原因,也可能出现丧失信息的位点。在距离估计中,一般忽略这些位点,可用两种不同的方法来进行处理。一种方法是从数据分析中删除这些位点,称为完全删除(complete deletion)。一般来说,这种方法较好,因为DNA或氨基酸序列的不同区段往往具有不同的演变规律。然而在所研究的序列中,间隔不大或者是随机分布的,则可计算每个配对序列间的距离,并只忽略两个配对序列间的那些间隔。这种方法称为成对删除(pairwise deletion)。这个过程在PAML中可以通过cleandata = 0 或1。

6

使用PAML进行数据分析的时候,所选用的序列越多,则得到的结果越可靠。一般应该大于17条序列,此外影响LRT检验结果好坏的因素还有:序列长度(sequence length)、序列分异度(sequence divergence)和正选择的强度(the strength of positive selection )(Anisimova, Bielawski et al. 2001; Opazo, Palma et al. 2005)。 还有使用PAML进行序列分析的时候必须检验序列是否发生过重排,可以使用的软件由PLATO 2.0,HYPHY等软件(Pond, Frost et al. 2005; Kosakovsky Pond, Posada et al. 2006; Petersen, Bollback et al. 2007)。如果是检测序列受到的选择压力的话,那么序列大于50codons即可,但是这些序列对于系统进化分析可能得到的结果不可靠(Pie 2006)。 物种的基因只有在受到正选择作用才能不断的适应环境的变化,所以正选择在物种进化中起到了非常重要的作用(Vallender and Lahn 2004)。 PAML中常用的模型有以下几个: 1. M0,所有的谱系具有相同的ω0值。 2. M3,discrete,它的位点具有三个离散类(discrete classes),并且具有不同的ω0。 3. M1a,nearly neutral model,允许两个位点分类,0< ω0 <1 或ω>1。 4. M2a,selection,具有一个额外的位点分类ω>1。 5. M7,beta,ω<1,具有额外10个位点分类。 6. M8,ω>1,具有额外11个位点分类。其中可以用于检验正选择的模型是M2a,M3和M8,得到了结果之后,我们可以再使用NEB(na?ve empirical)和BEB(bayes empirical )进行验证,通过后验概率,一般应该大于0.95。 PAML软件的模型中需要考虑的问题是: 1. 遗传密码子的结构。 2. 转换和颠换的比值。 3. 密码子不同位置的速率。 PAML操作中存在的问题: 1. 在codeml中,runmode是不是通常选择0,如果选择-2的话,就是使用ML法进行计算蛋白序列两两之间的dn和ds?那核苷酸序列可以吗? 2. model,通常下,我选的为0,意思是所有的谱系具有一个相同的ω值,这个在分析的时候怎么选择?如何检测各个谱系之间的ω的差异? 3. 对于NSsites的话,如果要进行两个模型之间比较,同时选择两个模型是否可以? 4. 例如,我要比较M0和M3,那么在NSsites = 0 3。这样选择,在结果中计算的是这两个不同模型下的结果,还是进行的两个模型的比较?如果进行比较,是否需要分别计算出各个模型的lnL值,在使用chi程序进行两两比较? 5. 其余还有什么关键性的参数? 6. 还有运算量大不大?一般的512M内存,3.0G的计算机能运行完吗? 7. 这个提示是什么意思?model should be 0 in the batch run?. 如何重建基因家族中的原始序列(Ancestral sequence)? PAML软件中的序列处理: 1. 如果序列之间的分异度比较明显的话,那么需要4-5条序列;如果有10条序列的话,效果会比较好;如果序列数大于20,那么得到的结果就会比较可靠。当然这也和序列之间的分异度有比较密切的联系。 2. 最佳序列分异取决于序列的数目,如果树比较大的话,则可以容忍更多的变异。一般情况下,如果总共的ds的距离大于0.5,那么就认

7

为这种方法是合理的。 3. 一般情况下,软件可以鉴别出一到两个位点受到较强的选择压力,但是有可能一些位点受到了选择压力,但比较弱,这是LRT方法会告诉你,这个位点存在选择压力,但是对于鉴别出,比较麻烦。 4. 一般情况下,使用简单模型和复杂模型得出的结果应该是一致的。所以,M0作为比较简单的模型,使用它得出的枝长、K以及w值应该和其他复杂模型得出的结果是一致的。 5. 如果比对的序列是高度相似或高度分异的话,我们应该执行程序两遍。 6. 如果使用NSsites执行多个模型,ncatG的参数也需要重新设置。 7. 在计算过程中,序列的饱和性并不是一个主要的问题,一般较高的序列分异会带来更多的问题,不同的序列之中会具有不同的密码子使用偏好性和核苷酸组成。 8. 计算出来的w值是不能为负值的。 9. 现在已经找到,lnL的值在rst文件中,但是每个位点的w值,在什么地方呢?即使找到了相关的参数,那么接下来再如何分析呢? 10. 在进行序列分析的时候,要把编码序列末端的终止密码子去掉,以防止出现误差。 PAML中用到的进化树的格式: A tree structure file is used when runmode = 0 or 1. The file name is specified in the appropriate control file. The tree topology is typically specified using the parenthesis notation (括号标序法), although it is possible to use a branch representation, as described below. Parenthesis notation. The first is the familiar parenthesis representation, used in most phylogenetic software. The species can be represented using either their names or their indexes corresponding to the order of their occurrences in the sequence data file. If species names are used, they have to match exactly those in the sequence data file (including spaces or strange characters). Branch lengths are allowed. The following is a possible tree structure file for a data set of four species (human, chimpanzee, gorilla, and orangutan, occurring in this order in data file). The first tree is a star tree, while the next four trees are the same. If the tree has branch lengths, baseml and codeml allow you to use the branch lengths in the tree as starting values for maximum likelihood iteration. Whether you should use rooted or unrooted trees depends on the model, for example, on whether a molecular clock is assumed. Without the clock (clock = 0), unrooted trees should be used, such as ((1,2),3,4) or (1,2,(3,4)). With the clock or local-clock models, the trees should be rooted and these two trees are different and both are different from (((1,2),3),4). In PAML, a rooted tree has a bifurcation at the root, while an unrooted tree has a trifurcation or multifurcation at the root. Tree files produced by PAUP and MacClade. PAML programs have only limited compatibility with the tree file generated by PAUP or MacClade. First the “[& U]” notation for specifying an unrooted tree is ignored. For the tree to be accepted as an unrooted tree by PAML, you have to manually

8

modify the tree file so that there is a trifurcation at the root, for example, by changing “(((1,2),3),4)” into ”((1,2),3,4)”. Second, the “Translate” keyword is ignored by PAML as well, and it is assumed that the ordering of the sequences in the tree file is exactly the same as the ordering of the sequences in the sequence data file. Branch or node labels. Some models implemented in baseml and codeml allow several groups of branched on the tree, which are assigned different parameters of interest. For example, in the local clock models (clock = 2 or 3) in baseml or codeml, you can have, say, 3 branch rate groups, with low, medium, and high rates respectively. Also the branch-specific codon models (model = 2 or 3 for codonml) allow different branch groups to have different ωs, leading to so called “two-ratios” and “three-ratios” models. All those models require branches or nodes in the tree to be labeled. Branch labels are specified in the same way as branch lengths except that the symbol “#” is used rather than “:”. The branch labels are consecutive integers starting from 0, which is the default and does not have to be specified. For example, the following tree is from the tree file examples/lysozyme/lysozyme.trees, with a branch label for fitting models of different ω ratio for branched. Anisimova, M., J. P. Bielawski, et al. (2001). \Molecular Evolution.\(2006). \3096-3098. Opazo, J. C., R. E. Palma, et al. (2005). \Caviomorph Rodents.\\(2006). \Selection.\\and B. T. Lahn (2004). \R245-254.

9

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库PAML一般使用操作(2)在线全文阅读。

PAML一般使用操作(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/403378.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: