首页 / 文章汇 / 技能干货 / 软件使用

统计基因、基因组序列长度、GC含量和GC-skew

  • 看不见的线
  • 16
  • 2025-06-30 08:34:33
  • 原创

Seqkit2是 Seqkit的新版本,是一个专门用于处理和分析生物序列数据的软件工具。它支持多种序列数据格式,包括FASTA、FASTQ等,并提供了一系列有用的功能,如数据处理、过滤、统计、格式转换等,是生物信息学领域中常用的工具之一。以下是使用seqkit统计基因、基因组序列长度、GC含量和GC-skew。

fx2tab子命令:将FASTA/Q转换为表格格式,可用于统计序列的信息

# Usage: seqkit fx2tab [flags]

# flags:

-a, --alphabet:打印字母表字母。

-q, --avg-qual:打印读取的平均质量。

-B, --base-content strings:打印碱基含量。支持多个值,例如-B AT -B N。

-C, --base-count strings:打印碱基计数。支持多个值,例如-C AT -C N。

-I, --case-sensitive:计算区分大小写的碱基含量/序列哈希。

-g, --gc:打印 GC含量。

-G, --gc-skew:打印 GC-Skew。

-H, --header-line:打印标题行。

-l, --length:打印序列长度。

-n, --name:仅打印名称(不包括序列和质量)。

-Q, --no-qual:即使对于 FASTQ文件,也仅输出两列。

-i, --only-id:打印ID而不是完整标题。

-b, --qual-ascii-base int: ASCII基数,Phred+33为33(默认为33)。

-s, --seq-hash:打印序列的哈希(MD5)。

#帮助信息查看

seqkit fx2tab -h

#打印序列长度、GC含量,并输出前10行

seqkit fx2tab viral.1.1.genomic.fna.gz -l -g -n -i -H | head

#打印序列长度、GC含量,将统计结果导出为制表符分隔文件

seqkit fx2tab viral.1.1.genomic.fna.gz -l -g -n -i -H > viral.1.1.genomic.fna_length_GC.tsv

# -l统计序列长度

# -g统计平均GC含量

# -i只打印名称(不打印序列)

# -H打印标题行

  • 点赞 (0人)
  • 收藏 (0人)
看不见的线
  • 课程数:
  • 文章数:
  • 学习人数: 0
关注
--- 作者文章 ---
  • 暂无内容
作者课程
  • 暂无内容
相关好课严选

官方微信公众号

客服热线:15618809518

【勤学如春起之苗,不见其增日有所长。假以时日,你定会为你的努力学习而倍感骄傲,加油!】