扩增子测序入门必备小贴士,常见问题我来答(二)
- 看不见的线
- 422
- 2024-07-04 14:20:02
- 文章来源:奥维森基因科技
#Beta多样性分析问题#
Q1:Beta多样性的意义是什么?
Beta多样性用于不同生态系统之间物种多样性的比较,利用各样本序列间的进化关系及丰度信息来计算样本(组)间距离,通过距离反映样本(组)间微生物群落是否具有差异。样本(组)间微生物群落越相似,距离数值越小,反之越有差异距离数值越大。
样本(组)间距离是指样本之间的相似程度,可以通过数学方法估算,常用的有欧式距离,(un)Weighted UniFrac距离,Bray Curtis距离等。
Q2:在分析Beta多样性时,基于加权(Weighted)与非加权(Unweighted)UniFrac距离两种不同的算法绘制的PCoA图有什么不同?
1)在计算UniFrac距离时,加权是考虑到样本中OTUs的有无和相对丰度,而非加权则仅考虑OTUs的有无,没有考虑相对丰度。
2)如果研究的生物学问题与物种的相对丰度信息密切相关,使用加权的结果可能更为合适;如果与相对丰度信息关系不密切,或者各组的区分与低丰度的OTUs更为密切,使用非加权的结果可能更为合适。
3)在常规研究中,权重往往是比较重要的,因此加权结果使用的较多。
Q3:PCA、PCoA、NMDS、PLS-DA、RDA/CCA分析的区别?
我们通常会基于Beta多样性分析得到的距离矩阵,再进行PCA、PCoA、NMDS等分析。
1)PCA是基于欧式距离(即物种丰度矩阵)来寻找主成分。这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。
2)PCoA是基于欧式距离以外的其他距离(如Bray Curtis距离,(un)Weighted Unifrac距离)来寻找主坐标,是一种与PCA类似的分析方法。通过一系列的特征值和特征向量排序,从多维数据中提取出最主要的元素和结构。基于欧式距离的PCoA就是我们所熟悉的PCA。
3)NMDS可以基于距离矩阵对对象进行排序,是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。与PCoA不同的是,NMDS不再基于距离矩阵数值,而是基于排位顺序进行计算,是非线性模型分析方法,能更好的反映生态学数据的非线性结构。
4)PLS-DA使用偏最小二乘法判别分析法建立微生物含量与样本类别之间的关系模型,实现对样本类别的预测。PLS-DA是一种有监督有模型的分析方法,也就是在分析数据时,已知样本的分组关系。这种监督模式通常可以更好地确立样本关系,最大程度地反映分类组别之间的差异。而PCA、PCoA和NMDS分析是无监督的方法。
5)RDA/CCA分析属于约束性数据降维分析方法,即分别是在环境因子的约束条件下进行的PCA和PCoA分析。
一般利用PCA、PCoA、NMDS或PLS-DA分析进行样本间比较,反映样本间群落结构的相似性和差异性。RDA/CCA分析用来描述环境因子对样本群落结构变化的影响,反映样本、物种和环境因子三者之间的关系,找出对物种分布变化影响程度较大的环境因子。
Q4:当PCA、PCoA和NMDS无法很好地区分样本时,PLS-DA反而区分效果较好,此时的PLS-DA结果可信吗?
根据前文,PLS-DA这种方法能够最大程度地反映分类组别之间的差异,也在很大程度上降低了系统噪声的干扰。相对来说更适用于组间差异不明显而组内差异较大,或组间差异较小而各组样本量相差较大的情况。
PCA等属于无监督的分析方法,在分析时对样本不加以区分,每个样本对模型有同样的贡献。当组间差异较大而组内差异较小时,无监督的分析方法可以较好区分组间差异。当组间差异不明显而组内差异较大时,就难以发现和区分组间差异。
PLS-DA结果是可信的,但在微生物组研究中使用需要谨慎。一般来说PLS-DA最好作为一个备选方法,在PCA、PCoA和NMDS结果都不好的时候,可以考虑使用PLS-DA。
Q5: NMDS结果中的stress值是什么?有什么含义?
stress值是NMDS排序分析的应力函数值,其表示的是二维空间中点的距离与多维空间中点的距离的差异。
stress值可以用来反映NMDS分析拟合度的优劣,在分析时会通过不断优化直到找到最优的stress值。通常认为stress<0.2时可用NMDS的二维点图表示,其图形有一定的解释意义;当stress<0.1时,可认为是一个好的排序;当stress<0.05时,则排序具有很好的代表性。
-
点赞 (0人)
- 收藏 (0人)