SPAdes安装及使用教程 ——基因组数据组装神器
- 看不见的线
- 2177
- 2024-01-10 09:17:59
- 原创
SPAdes(St. Petersburg genome assembler)是一个用于基因组组装的开源软件,主要应用于小型基因组如细菌,真菌等基因组测序数据的拼接。此软件应用广泛,具有多个附加管道可用于对不同类型的数据进行拼接。
metaSPAdes | 宏基因组数据集的管道 |
plasmidSPAdes | 用于从 WGS数据集中提取和组装质粒的管道 |
metaplasmidSPAdes | 用于从宏基因组数据集中提取和组装质粒的管道 |
rnaSPAdes | 来自 RNA-Seq数据的从头转录组组装器 |
biosyntheticSPAdes | 用于生物合成基因簇组装的模块 |
rnaviralSPAdes | 为 RNA病毒数据集(转录组、宏转录组和间病毒组)量身定制的从头组装器 |
coronaSPAdes | rnaviralSPAdes 的一种特殊模式,专门针对 SARS-CoV-2从头组装 |
truSPAdes | (已弃用)用于TruSeq条形码组件的模块 |
SPAdes的安装
- conda 安装
conda install -c bioconda spades
- 预编译可执行文件安装(下载并解压后即可使用)
#下载可执行文件并解压
wget http://cab.spbu.ru/files/release3.15.5/SPAdes-3.15.5-Linux.tar.gz
tar -xzf SPAdes-3.15.5-Linux.tar.gz
# 切换到bin目录
cd SPAdes-3.15.5-Linux/bin/
# 添加环境变量(临时)
export PATH=$PATH:$(pwd)
# 验证安装
spades.py --test
SPAdes的使用
单端测序数据
spades.py --careful --s1 R1.fastq -o result_out
双端测序数据
spades.py --careful --pe1-1 R1.fastq --pe1-2 R2.fastq -o result_out
宏基因组数据组装
spades.py --meta -t 16 -m 50 --pe1-1 R1.fastq --pe1-2 R2.fastq -o result_out
WGS数据质粒组装
spades.py --plasmid -t 16 -m 50 --pe1-1 R1.fastq --pe1-2 R2.fastq -o result_out
参数选项:
--s1:指定单独测序的序列文件,如果有多个文库,用数字后缀加以区分,比如--s1,--s2
--pe1-1和--pe1-2:分别指定双端测序的R1端和R2端序列文件,多个文库用数字后缀区分,比如--pe2-1, --pe2-2
-k:kmer数,一次可以输入多个,用逗号分隔,数值从小到大排列,kmer最大为127,数值必须是奇数,一般自动选择即可,--sc参数,则默认值为 21,33,55。若没有 --sc参数,则程序会根据 reads长度自动选择 k-mer参数
--careful:通过运行 MismatchCorrector模块进行基因组上 mismatches和 short indels的修正。推荐使用此参数
-o result_out:指定输出文件目录为result_out,需要提前设定,为必选项
--test:使用 test数据运行 SPAdes,用于检测软件是否正确安装
--meta:组装宏基因组数据集
--plasmid:从WGS数据集组装质粒
--metaplasmid:从宏基因组组装体中提取染色体外元素,如质粒
--help:打印帮助信息
-t 16:使用的线程数,默认为16
-m 250:设定内存的限制,单位为 Gb。如果程序使用的内存达到此值,则程序会终止运行。默认值是 250
参考资料:
Prjibelski A, Antipov D, Meleshko D, Lapidus A, Korobeynikov A. Using SPAdes De Novo Assembler. Curr Protoc Bioinformatics. 2020 Jun;70(1):e102. doi: 10.1002/cpbi.102. PMID: 32559359.
https://github.com/ablab/spades#metapv
-
点赞 (0人)
- 收藏 (0人)