tool-banner
工具目录
首页>工具目录>

多序列比对

Multiple Sequence Alignment
多序列比对
抗体序列分析
2025-08-11
立即尝试

Multiple Sequence Alignment

1 简介

Multiple Sequence Alignment 用于多条 DNA 和蛋白质序列的比对,并可视化序列比对结果,有助于序列聚类、分析序列间多样性、识别保守和突变区域。包含 ClustalW2 和 MUSCLE1 自动比对工具, 其中 MUSCLE 包含NJ3,UPGMA4, UPGMB聚类方法。

2 参数说明

  • Sequences:输入蛋白序列或DNA序列
  • Aligners:
    • ClustalW: 用于多序列比对的广泛使用的工具, 结合了记忆效率高的动态规划算法和逐步比对策略,旨在提供准确、稳健且用户友好的序列比对结果。
    • MUSCLE: 用于生成氨基酸和核苷酸序列的多序列比对的工具,包含NJ,UPGMA, UPGMB聚类方法。其论文中测试比ClustalW具有更高的准确性,与T-Coffee或MAFFT相同,且在对大型序列集进行比对时速度最快。
muscle

Figure 1. 源于MUSCLE论文的各Aligners的比对速度


  • Cluster Method:
    • NJ: 邻接法(Neighbor Joining)是一种基于距离的聚类方法,核心思想是在聚类的每个阶段寻找最小化总分支长度的操作分类单元(OTUs)对,即“邻居”,并将它们合并。NJ因其计算速度快和较高的准确性而受到青睐,尤其是在处理较小的进化距离和较短的序列时,但可能对异常值敏感。
    • UPGMA: Unweighted Pair Group Method with Arithmetic Mean是一种层次聚类方法, 核心思想是通过计算样本之间的平均距离来逐步构建聚类树。UPGMA在算法上较简单,速度最快。
    • UPGMB: Unweighted Pair Group Method with Banded Mean 是UPGMA的一个变种,与UPGMA使用简单的算术平均不同,UPGMB在计算新聚类中心时,会考虑一个“带宽”参数,减少异常值,从而某些情况下可能比UPGMA更稳健。

3 结果说明

  • Chart:序列比对图
  • alignment.fasta :比对好的序列fasta文件
MSA_result

Figure 2. Multiple Sequence Alignment 示例的结果图


4 参考文献

[1] Edgar, R.C. MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics 5, 113 (2004).https://doi.org/10.1186/1471-2105-5-113
[2] Julie D. Thompson, Desmond G. Higgins, Toby J. Gibson, CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice, Nucleic Acids Research, Volume 22, Issue 22, 11 November 1994, Pages 4673–4680.https://doi.org/10.1093/nar/22.22.4673
[3] N Saitou, M Nei, The neighbor-joining method: a new method for reconstructing phylogenetic trees., Molecular Biology and Evolution, Volume 4, Issue 4, Jul 1987, Pages 406–425. https://doi.org/10.1093/oxfordjournals.molbev.a040454
[4] Sokal, R. R., & Michener, C. D. (1958). A statistical method for evaluating systematic relationships. University of Kansas Science Bulletin, 38(1), 1409-1438.

0