这是我目前的ASR流程
1.在refseq搜集相关蛋白质序列,并cd-hit以0.95相似度去冗余剩下大概四五百条
2.mafft进行多序列比对,参数--auto,trimal剪辑对齐比对结果
3.iqtree建系统发育树
4.paml下面codeml ASR分析
关键卡在了第四步linux版本的codeml需要输入codeml.ctl配置文件,aaRatefile=氨基酸替代模型iqtree预测的是LG+F+R6,但是paml自带的.dat氨基酸替换模型没有这个组合,请问我该如何生成.dat文件。下面是我的配置文件比对序列时氨基酸序列,希望各位大佬检查一下有没有上面问题。
seqfile = supergene.phy
treefile = ff.fa.treefile
outfile = mlc
getSE = 0
noisy = 9
verbose = 1
seqtype = 2
runmode = 0
CodonFreq = 2
clock = 0
aaDist = 0
model = 2
aaRatefile =
icode = 0
Mgene = 0
fix_kappa = 0
kappa = 2
fix_omega = 0
omega = .4
fix_alpha = 1
alpha = 0
Malpha = 0
ncatG = 10
RateAncestor = 1
Small_Diff = .5e-6
method = 0
3 回答
你的问题是关于PAML的codeml程序中的氨基酸替代模型。你在IQ-TREE中得到的模型是LG+F+R6,但这种组合的模型在PAML的.dat文件中没有。
目前为止,PAML中自带的氨基酸替代模型并未涵盖所有可能的模型,例如你提到的LG+F+R6。然而,PAML的自带模型(如Dayhoff, JTT, MtREV, MtMam, WAG等)已经在各种生物分子演化的研究中得到了广泛应用。
对于你的问题,我有几个建议:
首先,你可以试试看是否能在PAML自带的模型中找到一个接近LG+F+R6的模型。这样,你可以继续用PAML进行你的分析,虽然你可能会牺牲一些精度。
其次,你也可以考虑使用其他支持更多氨基酸替代模型的程序,比如PhyML,它支持LG模型。如果你的分析强烈依赖于LG+F+R6模型的使用,这可能是一个值得考虑的选择。
最后,如果你想在PAML中使用LG+F+R6模型,你可能需要自己创建.dat文件。你可以参考PAML的.dat文件的格式,然后找到LG模型的参数,将其加入到你的.dat文件中。这可能需要一些编程和分子生物学的知识,而且可能会比较麻烦。
然而,你需要注意的是,创建自定义的.dat文件可能需要你非常清楚你正在做什么。氨基酸替代模型的参数是根据大量的实验数据得出的,如果你没有足够的理解和知识,自己创建这样的文件可能会导致你的分析结果不准确。
我希望这些建议能够帮助你解决你的问题。如果你有其他问题,或者需要更详细的解答,欢迎你随时向我提问。