扩增子测序入门必备小贴士,常见问题我来答(三)
- 看不见的线
- 455
- 2024-07-04 15:40:39
- 文章来源:奥维森基因科技
#多元统计分析问题#
Q1:如何选择Metastat、Wilcoxon、Kruskal-Wallis及LEfSe等统计分析的结果?
我们知道这四种分析所使用的统计检验方法有所不同,因此得出的结果也会存在差异。
Metastat、Wilcoxon分析是在多个分组之间进行两两比较,从而检验每两组比较间的差异物种。而Kruskal Wallis和LEfSe是在三组或更多分组之间进行比较,从而检验多组共同比较下的差异物种,不会涉及组间两两比较的结果。这四种统计分析方法的检验结果,可以根据研究背景选择结果较符合的使用。
Q2:LEfSe 结果如何解读?
1、LEfSe软件参数设置:
LEfSe分析可以实现多个分组之间的比较,从而找到组间在丰度上有显著差异的物种(即biomaker),其分析原理有如下三步:
1)首先在多组样本中采用的参数检验ANOVA检验检测不同分组间丰度差异显著的物种,阈值设定0.05;
2) 对上一步中获得的差异显著物种,再用成组的Wilcoxon秩和检验来进行组间差异分析,阈值设定0.05;
3) 最后用线性判别分析(LDA)对数据进行降维和评估差异显著的物种的影响力(即LDA score),阈值设定为2。
LEfSe软件默认设置的LDA score阈值是2,LDA score大于2的差异物种即认为具有标志性。LDA score越大,代表差异物种的影响越大。如果阈值为2时筛选出来的差异物种过少或过多,也可适当调整阈值大小。
2、LDA柱状图解读
LDA柱状图中展示的是差异显著且LDA score大于设定阈值的物种,即筛选出的具有统计学差异的biomaker。柱状图中柱子长度代表显著差异物种的LDA score值大小。
着色原则:biomaker在哪个组中富集(即在哪个组中相对丰度最高)就将该物种着色为这个分组的颜色。如果有特定分组没有出现在图中,说明所有差异显著物种在这个分组中的相对丰度都比较低或不存在(即这些物种没有在这个组中富集)。
3、进化分支图解读
图中由内至外辐射的圆圈代表由门至属(或种)的分类级别。在不同分类级别上的每个圆圈代表该分类水平下的一类物种,圆圈直径大小与相对丰度大小呈正比。图中英文字母表示的具体物种名称见右侧图例。
着色原则:无显著差异的物种统一着色为黄色,差异物种biomarker跟随分组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群,其它圈颜色意义类同。
4、lefse.res 格式文件解读:
该文件共5列:
第一列是biomarker名称;第二列是物种在各分组中平均丰度最大值的log10的值,如果平均丰度小于10的按照10来计算,如果平均丰度小于10的按照10来计算;第三列是差异基因或物种富集的组名称;第四列是LDA值;第五列是参数检验ANOVA分析的p值,如果不是biomarker则用“-”表示。
Q3:环境因子相关性分析(RDA\CCA)结果如何解读?
RDA/CCA分析又称多元直接梯度分析,主要用来检测环境因子、样本、菌群三者间的关系或者两两之间的关系。RDA/CCA分析将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,其中RDA是基于线性模型进行分析,CCA是基于单峰模型进行分析。
RDA或CCA模型的选择原则:先用species-sample数据(97%相似性的样本OTU表)做DCA分析,看分析结果中Lengths of gradient第一轴的大小,如果大于4.0,则选CCA,如果在3.0-4.0之间,选RDA和CCA均可,如果小于3.0,RDA的结果要好于CCA。
CCA模式分析结果解读:
图中红色射线代表不同的环境因子,射线的长短代表该环境因子对于物种组成的影响程度(解释量)的大小;环境因子射线间的夹角代表环境因子间的正、负相关性(锐角:正相关;钝角:负相关;直角:无相关性)。
黑色圆点代表样本,图中两圆点间的距离越近,说明两个样本的群落结构组成差异越小,相似度越高;从样本点向环境因子的射线做垂直投影,投影点距离环境因子射线指向方向越近,环境因子对样本群落结构的影响越大。
蓝色三角代表物种,用线段连接物种与样本,线段的长短代表了相应样本中目标微生物丰度的大小,线段越长丰度越小。
RDA模式下物种呈现为向量,向量的指向方向表示该物种丰度增加的方向。其他解读同CCA模式。
-
点赞 (0人)
- 收藏 (0人)