代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。


首先,我们得明确什么叫“代谢物”(metabolite)。代谢物亦称中间代谢物,是指通过代谢过程产生或消耗的物质,生物大分子不包括在内。目前METLIN数据库中的标准代谢物分子总共超过200,000 种;一般非靶向代谢组学使用质谱仪能检测到人体血液中的代谢信号峰大约接近10,000个。由此可知,代谢组学的特征维度是比较大的。

其次,我们了解下什么叫“代谢组”(metabolome)。代谢组是指生物体内源性代谢物质的动态整体。而传统的代谢概念既包括生物合成,也包括生物分解,因此理论上代谢物应包括核酸、蛋白质、脂类生物大分子以及其他小分子代谢物质。但为了有别于基因组、转录组和蛋白质组,代谢组目前只涉及相对分子质量约小于1000的小分子代谢物质。

那么“代谢组学”(metabolomics)怎么定义呢?代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。注意,代谢组学还有个英文写法是“metabonomics”,这两个写法都是可以的,但其实这两个词的侧重点有些区别,此处不深究,感兴趣的童鞋可以自行查找资料了解。

代谢组学从研究特点上可分为非靶向代谢组学和靶向代谢组学。非靶向代谢组学无偏向地检测样本中所有能检测到的代谢物分子,是通过生信方法进行差异分析和通路分析,寻找生物标志物,初步建立模型或代谢物Panel的组学方法。而靶向代谢则是针对特定的代谢物进行检测,由于其使用标准品,因此可以实现代谢物的******定量(非靶向代谢组学只能相对定量)。

用于代谢组学研究的样本,主要包括:组织、血液、尿液等,其他如生物体液、分泌物或排泄物也常用于代谢组学研究。

数据采集的方法上来看,主要分为:核磁共振(NMR)、气质联用(GC-MS)及液质联用(LC-MS)。NMR的灵敏度最低,LC-MS的灵敏度最高(可以检测到更多的代谢物)。采集的数据经过处理,可转化成各个代谢信号峰的相对含量值表(常使用XCMS等工具进行处理)。

总的来说,完整的代谢组学研究,应包括实验设计、样本处理、数据采集、数据分析这几个部分。

数据预处理

采集的数据经过处理,可转化成各个信号峰的相对含量值表,这个表一般形式为:每一行代表一个信号(可由RT[保留时间]和m/z[质荷比]确定一个信号峰)在各个样本中的相对含量,也就是说,每一列代表每个样本中各个信号的性对含量(前几列除外,表示各信号的RT、m/z等信息)。每个信号可用RT值和m/z值组合进行命名。

对于得到的这个表,我们常常进行如下3个预处理操作:信号峰注释、标准化校正、质控。

信号峰的注释。可以对同位素峰、加合物峰进行注释,甚至可以初步鉴定部分信号峰所对应的代谢物名称。

标准化校正。可分为批次内校正和批次间校正。需要校正是因为仪器不稳定等情况,可能使信号峰的相对含量出现误差。校正的方法有几种,目前一般******基于QC样本的标准化方法,即:将所要采集的所有样本取等量混合起来,组成QC样本,然后在采集数据的时候,每隔一定数量的样品,插放一份QC样本。因为QC样本都是一样的,因此可以用QC样本来反映数据采集过程中信号的偏移规律。校正的工具,目前主要推荐中科院ZhuLab开源的MetNormalizer(朱正江研究员的博士生申小涛师兄开发)。

质控。对每个信号峰的QC样本求RSD(相对标准偏差),通常需舍弃RSD超过30%的信号峰(数据质量太差)。

 

统计分析

单变量分析

二分类问题的单变量分析主要分为:Wilcoxon秩和检验(或 t检验)和 Fold Change分析。多分类问题可能需要ANOVA等方法。常用的可视化方法为 Volcano Plot (火山图),可初步筛选出同时满足Wilcoxon检验统计学差异Fold Change倍数差异的信号峰。单变量分析很简单,但常常很有效。

值得注意的一点是,单变量统计学检验,其p值的阈值设定,严格来说不应该设定为0.05,需要进行FDR校正(高维数据进行多次假设检验,容易产生大量的假阳性)。但作为初筛,许多研究往往卡得比较松。

 

多元统计分析

多变量分析之前,需要对变量进行标准化(包括中心化和尺度化),尺度化的方法主要有以下两种。

Auto scaling:自动标度化,也叫UV scaling(univariate scaling,单变量标准化),也就是上一步中心化后除以该变量的标准差,也叫Z-score标准化。

Pareto scaling柏拉图标准化,一般写成Par标准化,与UV scaling的不同之处就是对标准差开根号。

一般用的较多的是Z-score标准化。

多元统计分析非常重要的一步是降维。提到降维,很多人的反应便是PCA、LASSO、PLS等方法。代谢组学中较多使用PLS(偏最小二乘法),因为信号峰之间的相关性较高,LASSO降维不仅会将意义较小的变量剔除,也会将相关性较高(共线性)的变量中剔除多余的。一般代谢组学需要探索代谢物之间的互作与研究结局变量的关系,因此PLS更受欢迎。当然,根据研究目的的不同(比如单纯为了找显著价值的互相独立的biomarker),也可以使用LASSO等方法降维。而PCA作为无监督的方法,在代谢组学中主要仅用于质控或寻找天然的分组。

PLS作为监督学习的一种方法,不仅对自变量x成分进行了映射处理,还对结局变量y也映射处理。除了PLS,还有其加强算法——OPLS,区分能力略微更强,可视化效果略微更好。

网络分析

包括富集分析(Enrichment analysis)和通路分析(Pathway analysis)。通路分析中添加了通路的拓扑分析,输出通路在整体网络中的重要性(impact),重要性越大,可能意味着在整个通路中的地位越核心,那么从impact值也可以反映出来。

https://blog.csdn.net/fjsd155/article/details/89685075