分析背景
FASTQ: Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。每条read包含4 行信息。第一行以“@”开头,随后是序列标示和相关的描述信息,第三行以“+” 开头,随后是序列描述信息或者什么都不加;第二行为碱基序列,第四行是质量信息,与第二行中的碱基序列一一对应,如下图所示:
FASTA:第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。;从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。如下图所示:
Fastq与Fasta是生信分析最基础的格式之一,数据质量的好坏对后面的下游分析起着至关重要的作用,且二者可以相互转化,今天小编就分享一个由python编写的小工具Fastaq,能够直接将fasta文件和质量值文件转化为fastq文件,话不多说,直接上教程。
安装工具
1.下载工具Github网站下载:原始文件,如下图所示;
2.将下载下来的文件拷贝服务器上并用unzip命令解压,如下图所示;
3.安装程序
3.1 查看安装帮助信息
python setup.py --help
3.2 检测安装环境
python setup.py test
3.3 安装小程序
python setup.py install
3.4 查看是否安装成功
实战演练
1.测试数据格式如下图所示
注意:fasta文件与质量值文件中的序列标号要相同,且要一样对应
2.运行程序
fastaq fasta_to_fastq --help
说明:这个小程序需要输入一个fasta文件,一个质量值文件,以及输出的fastq文件名称,程序很简单,但是功能强大。
说明:这个小程序需要输入一个fasta文件,一个质量值文件,以及输出的fastq文件名称,程序很简单,但是功能强大。
说明
1.fastaq是一个工具集,主要功能是操作fastq文件与fasta文件,将fasta文件与对应的质量值文件转化为fastq文件只是其中的一个功能,还包括对fastq文件进行切分,过滤,提取序列的ID等功能,小编会在以后的推文中给大家介绍,感兴趣的小伙伴可以阅读官方帮助文档。
2.感谢维康桑格研究所提供的源代码文件。
>>
上海唯那生物专注于提供微生物包括耐药性研究在内的各类个性化服务,包括基金方案申报、组学测序、个性化生信分析、文章辅导发表、科研绘图、微生物纯化培养、基因克隆、微生物突变体(库)构建等。全方位,一站式,我们期待与您的合作。从数据处理、相关运算,到结果解读、图片绘制,全方位、一站式提供相关研究的解决方案,大家有需要的话也请联系我们。
>>
唯那生物精心准备的微生物耐药专题解析合集材料,具体包括:
1、微生物耐药研究快速入门综述;
2、微生物耐药研究经典案例解读;
3、微生物耐药研究专题方案书;
4、微生物耐药研究的热点好文章。