首页 / 文章汇 / 技能干货 / 软件使用

BLAST软件输出结果的整理与后加工

  • 看不见的线
  • 55
  • 2025-06-11 08:51:13
  • 原创

BLAST(Basic Local Alignment Search Tool)是一款由 NCBI(美国国家生物技术信息中心)提供的生物信息学工具,用于比较基因或蛋白质序列。以下是如何在表格中完成,添加表头、过滤identity值、保留唯一匹配等,以outfmt 6默认输出结果为例。

1.添加表头

#创建一个包含指定字段的表头文件header.txt

echo -e "Query_ID\tRefer_ID\tIdentity(%)\tAlignment_Length\tMismatches\tGap_Openings\tQ_Start\tQ_End\tS_Start\tS_End\tE-value\tBit_Score" > header.tsv

#将该表头文件与原始的blast比对结果文件data/blastn_nucl_result.tsv合并

cat header.tsv data/blastn_nucl_result.tsv > data/blastn_nucl_result_with_header.tsv

2.过滤identity值

awk -F '\t' '$3 >= 70' data/blastn_nucl_result_with_header.tsv > data/filtered_blastn_nucl_result_with_header.tsv

在这个命令中:

-F '\t':指定字段分隔符为制表符,因为outfmt 6格式的blast结果是以制表符分隔的。

'$3 >= 70':表示筛选第三列(identity (%)列)值大于等于70%的行。

blastn_nucl_result_with_header.tsv:是输入的blast比对结果文件。

> data/filtered_blastn_nucl_result_with_header.tsv:将筛选后的结果输出到当前目录下data文件夹中的filtered_blastn_nucl_result_with_header.tsv文件中。

3.根据Query ID来保留唯一匹配项

awk '!seen[$1]++' data/blastn_nucl_result_with_header.tsv > data/unique_blastn_nucl_result_with_header.tsv

在这个命令中:

!seen[$1]++:表示对第一列(假设为Query ID列)进行去重操作,保留每个Query ID第一次出现的行,即保留唯一匹配项。

blastn_nucl_result_with_header.tsv:是输入的blast比对结果文件。

> data/unique_blastn_nucl_result_with_header.tsv:将去重后的结果输出到当前目录下data文件夹中的unique_blastn_nucl_result_with_header.tsv文件中。

推荐课程

【课程】个人电脑上如何通过BLAST软件做比较基因组学分析

  • 点赞 (0人)
  • 收藏 (0人)
看不见的线
  • 课程数:
  • 文章数:
  • 学习人数: 0
关注
--- 作者文章 ---
  • 暂无内容
作者课程
  • 暂无内容
相关好课严选

官方微信公众号

客服热线:15618809518

【勤学如春起之苗,不见其增日有所长。假以时日,你定会为你的努力学习而倍感骄傲,加油!】