PAML软件的一些简单的具体的使用操作
1. 首先用Clustal X进行序列比对:要保证:保证核苷酸序列是三的倍数,没有终止密码子,核苷酸序列的第一位是密码子的第一位。假设序列名为cox1.fas
2. 使用DAMBE软件进行转换成PML格式。软件使用截图: 打开要换换的文件,然后“file” “save and convert sequence format”,在保存类型中选择“Yang’s PAML”。那么此时的序列名为“cox1.PML”
3 这样就可以得到文件“*.PML”,然后就直接把后缀改成“*.nuc”。那么此时的序列名为“cox1.nuc” 这样就完成了文件格式的转换。
4 打开PAML软件的文件夹,找到文件名是“bin”的文件夹,打开之后,找到程序“codeml.exe”,把该程序复制到D盘的根目录下。(这一步并不是必要的,只是要把用到的几个程序放在同一个目录下)
5 在你使用ClustalX进行序列比对的时候,会生成一棵进化树,适用treeview软件可以打开,你需要的是把文件的后缀名改称“*.trees”。即树的文件名是“cox1.trees”,这就完成了树的格式的转换。
6 然后再PAML4的文件夹中找到一个后缀是“*.ctl”的文件,把文件名改成“cox1.ctl”,复制到和“codeml.exe”相同的地方。
7 要对codeml.ctl文件中的各个选项的值进行修改,具体内容如下: 8 seqfile = cox1.nuc 按你自己的文件名进行修改,就可以了, 9 treefile = cox1.trees
outfile = mlc * main result file name ,
noisy = 9 * 0,1,2,3,9: how much rubbish on the screen , verbose = 0 * 0: concise; 1: detailed, 2: too much
1
runmode = 0
seqtype = 1 * 1:codons; 2:AAs; 3:codons-->AAs
CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0
aaDist = 0 * 0:equal, +:geometric; -:linear, 1-6:G1974,Miyata,c,p,v,a
aaRatefile = wag.dat * only used for aa seqs with model=empirical(_F) * dayhoff.dat, jones.dat, wag.dat, mtmam.dat, or your own
model = 0,这是使用的最简单的模型, * models for codons: * 0:one, 1:b, 2:2 or more dN/dS ratios for branches
* models for AAs or codon-translated AAs:
* 0:poisson, 1:proportional, 2:Empirical, 3:Empirical+F 28 * 6:FromCodon, 7:AAClasses, 8:REVaa_0, 9:REVaa(nr=189)
NSsites = 0 3 1 2 7 8 ,依次选取了6个模型。也可以选其中的两个,但必须是0和3,1和2,7和8。相互配对
icode = 4 * 0:universal code; 1:mammalian mt; 2-10:see below如果是核基因的话就选0。 fix_kappa = 0 kappa = 5 fix_omega = 0 omega = 0.2 getSE = 0
2
RateAncestor = 0 Small_Diff = .5e-6
cleandata = 1 * remove sites with ambiguity data (1:yes, 0:no)? method = 0 * 0: simultaneous; 1: one branch at a time
10 最后保证在同一个文件夹内同时具有:三个文件“codeml.exe”,“cox1.nuc”“cox1.trees”,这时候你双击codeml.exe,就可以运行程序。
如果不能正确运行的话,你可以通过运行cmd,在dos情况下,运行codeml.exe,这样会有错误提示,知道你错在哪里了。
常见命令解释: 1. Baseml.ctl的命令说明:
2. noisy用来控制输出结果的多少,如果模型适用的运算比较多的话,noisy的值可以选择的比较大,verbose可以控制结果文件中结果的多少。
3. runmode = 0 表明在树的结构文件中估算树的拓扑结构。这个选项是我们通常情况下选择的,基本上可以满足我们的需要。
4. Runmode = 1 or 2 表明通过星状-分解算法来进行启发式搜索树。Runmode = 2 这种算法是从星状树开始搜索,而runmode = 1 则表明软件读取多歧树是从树的结构文件中,并且同过比较去估计最佳二歧树。 5. runmode = 3 表明是逐步增加的。
6. runmode = 4 通过简约法来搜索具有NNI perturbation的起始树。
7. runmode = 5 表明从树的结构文件中来读取NNI perturbation with 起始树。
8. Model 0,1,…,8 分别代表以下模型:JC69, K80, F81, F84, HKY85, T92, TN93, REV( also know as GTR), and UNREST。
9. Mgene 用于和序列数据文件中的option G进行联合,用于多个基因和多个位点的联合分析。如果不使用option G的话,则选择0。
3
10. ndata 用于指定文件中的分隔的数据集的数目。它的变化被用于模拟,你可以使用evolver来产生200个复制数据集,这是设置ndata = 200,然后用baseml进行分析。
11. clock 用于指定谱系之间速率恒定或变化的模型。Clock = 0,意味着整棵树中,不同分支之间不存在clock现象;Clock = 1,意味着global clock,所有的分支具有相同的进化速率;clock = 2 意味着local clock,所有分支之间的进化速率被分成几个部分;clock = 3意味着多个基因或多重分隔数据,允许分支的进化速率以不同的方式变化。;;
12. Codeml.ctl的使用说明:
13. CodonFreq 用于平衡密码子替换模型中的密码子使用频率。Codonfreq = 0 说明每种密码子的使用频率是相同的;codonfreq = 1 说明是从平均核苷酸频率中计算出来的;codonfreq = 2说明是从三个密码子位置的平均核苷酸频率得来的;codonfreq = 3则使用了三个参数。Codonfreq = 0,1,2和3 所代表的模型中使用的参数的数目分别为:0,3,9,和60。 14. aadist用于指定氨基酸距离是否是相同的(= 0),还是属于Grantham’s matrix(= 1)。 15. runmode = -2 执行ML方法来推测蛋白序列两两之间的dn和ds。
16. model 用于估计各个分支之间的w值。 Model = 0,表明所有的谱系具有一个w比率(one w ratio);model = 1,每一支具有一个速率(free-ratio);model = 2 表明速率的任意数字。 17. NSsites 主要是用于指定模型允许dn/ds(w)在不同的位点之间变化。NSsites = m 表明对应于 model = m。变化的 ncatG被用来指定在一些特定的模型下的w分布的类型的数目。NcatG的值被用于执行一下分析:paper are 3 for M3 (discrete), 5 for M4 (freq), 10 for the continuous distributions (M5 gamma, M6: 2gamma, M7: beta, M8:beta&w, M9:beta&gamma, M10: beta&gamma+1, M11:beta&normal>1, and M12:0&2normal>1, M13:3normal>0). This means M8 will have 11 site classes (10 from the beta distribution plus 1 additional class) 。通过NSsites可以同时执行多个模型,例如:NSsites = 0 1 2 3 7 8,的意思就是同时执行M0,M1,M2a,M3,M7,和M8。作者建议:使用M1a和M2a来重建LRT,使用M7和M8来重建LRT,使用M2a和M8来鉴别受到正选择的位点。
18. icode 用来更改所选序列的遗传密码子,以期得到更加准确的结果。
4
19. RateAncestor = 1 表明你想重建原始序列,如果 RateAncestor = 0 说明你将避免这个计算。不过使用效果并不明显,还需要进一步研究如何使用。 PAML使用中最重要的就是模型的选择: PAML中所有的模型都在baseml和codeml这两个程序中使用。这两个程序是最大似然程序,它们使用数值优化算法来最大化对数似然值。这些模型最大的用途就是适用likelihood ratio test(似然比率检验)来检测有趣的生物学假设。这些模型是在Baseml中使用的,软件中常用的数学模型有:JC69(Jukes and Cantor 1969),K80(Kimura 1980),F81(Felsenstein 1981),F84(Felsenstein 1984),HKY85(Hasegawa 1984,1985),Tamura(1992),Tamura and Nei(1993),and REV,also know as GTR for general-time-reversible(Yang 1994)。 模型的一般遵循以下假设: 1. 在不同的谱系中替换是独立发生的。 2. 在不同的位点中替换也是独立发生的。 3. 替换的过程我们通过时间均匀马尔科夫过程(time-homogeneous Markov process)。
常用的两种检测方法:
1. Maximum likelihood estimates(MLEs):观测到的数据X的概率(probability),当做为一个未知参数θ的函数的时候,就叫做似然函数(likelihood function):L (θ:∣X) = f(θ∣X)。根据似然规则(likelihood principle),似然函数包括数据中关于参数θ所有的信息。参数θ的最佳点估计(optimal point estimate)可以通过最大化似然L的θ值或l(θ;X)的似然对数进行估计。并且,似然曲线可以为未确定的点估计提供信息。
2. Likelihood ratio tests (LRTs):假设一个简单模型或无效模型(simpler or null model)有一个参数 p0,更通用的模型或可选择的模型(general or alternative model)有一个参数p1,两个模型的最佳似然值分别为l0和l1。那么对数似然值差异(log likelihood difference)的两倍是:2△l = 2(l1 - l0),如果无效模型(null model)成立的话,那么对数似然值差异的二倍将与自由度是d.f. = p1- p0的卡方分布具有渐进关系(asymptotically)。因此,对数似然值差异的二倍的检验统计可以通过比较卡方分布来检验无效模型(null model)是否拒绝备择模型(alternative model)。 所谓Likelihood ratio test(似然比率检测)是用来检验两个模型的。
离散伽玛模型(discrete-gamma model)允许不同位点具有不同的变化速率。 Baseml中有核苷酸替换模型,Codeml中有不同位点替换速率变化的模型。
5
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库PAML一般使用操作在线全文阅读。
相关推荐: