BLAST软件输出结果的整理与后加工
- 看不见的线
- 55
- 2025-06-11 08:51:13
- 原创
BLAST(Basic Local Alignment Search Tool)是一款由 NCBI(美国国家生物技术信息中心)提供的生物信息学工具,用于比较基因或蛋白质序列。以下是如何在表格中完成,添加表头、过滤identity值、保留唯一匹配等,以outfmt 6默认输出结果为例。
1.添加表头
#创建一个包含指定字段的表头文件header.txt
echo -e "Query_ID\tRefer_ID\tIdentity(%)\tAlignment_Length\tMismatches\tGap_Openings\tQ_Start\tQ_End\tS_Start\tS_End\tE-value\tBit_Score" > header.tsv
#将该表头文件与原始的blast比对结果文件data/blastn_nucl_result.tsv合并
cat header.tsv data/blastn_nucl_result.tsv > data/blastn_nucl_result_with_header.tsv

2.过滤identity值
awk -F '\t' '$3 >= 70' data/blastn_nucl_result_with_header.tsv > data/filtered_blastn_nucl_result_with_header.tsv
在这个命令中:
-F '\t':指定字段分隔符为制表符,因为outfmt 6格式的blast结果是以制表符分隔的。
'$3 >= 70':表示筛选第三列(identity (%)列)值大于等于70%的行。
blastn_nucl_result_with_header.tsv:是输入的blast比对结果文件。
> data/filtered_blastn_nucl_result_with_header.tsv:将筛选后的结果输出到当前目录下data文件夹中的filtered_blastn_nucl_result_with_header.tsv文件中。
3.根据Query ID来保留唯一匹配项
awk '!seen[$1]++' data/blastn_nucl_result_with_header.tsv > data/unique_blastn_nucl_result_with_header.tsv
在这个命令中:
!seen[$1]++:表示对第一列(假设为Query ID列)进行去重操作,保留每个Query ID第一次出现的行,即保留唯一匹配项。
blastn_nucl_result_with_header.tsv:是输入的blast比对结果文件。
> data/unique_blastn_nucl_result_with_header.tsv:将去重后的结果输出到当前目录下data文件夹中的unique_blastn_nucl_result_with_header.tsv文件中。
推荐课程
-
点赞 (0人)
- 收藏 (0人)
-
上一篇: 没有了
- 下一篇: Easyfig罕见问题1