MITRE:利用微生物组时间序列数据推断与宿主状态变化相关的特征

MITRE:利用微生物组时间序列数据推断与宿主状态变化相关的特征

MITRE: inferring features from microbiota time-series data linked to host status

image

译者:文涛 南京农业大学

责编:刘永鑫 中科院遗传发育所

Genome Biology [IF:14.028]

2019-10-2 Articles

DOI: https://doi.org/10.1186/s13059-019-1788-y

全文可开放获取 https://sci-hub.se/downloads/2019-09-09/6f/bogart2019.pdf#view=FitH

第一作者:Elijah Bogart1

通讯作者:Georg K. Gerber 1* [email protected]

其它作者:Richard Creswell1

作者单位:

1 1Massachusetts Host-Microbiome Center, Department of Pathology, Brigham
and Women’s Hospital, Harvard Medical School, 60 Fenwood Road, Boston,
MA, USA

热心肠日报

http://www.mr-gut.cn/papers/read/1061894083

创作:刘永鑫-中科院遗传发育所-宏基因组 审核:刘永鑫-中科院遗传发育所-宏基因组

  1. 时间序列数据对于发现微生物组和人类健康之间的因果关系至关重要,尤其对于理解人类疾病,女性生育,外界感染等因素与微生物的关联;
  2. 本文提出一种用于处理微生物组时间序列有监督的机器学习方法:MITRE;
  3. 结合系统发育信息寻找在时间序列中微生物的变化,并与人类是否患病等状态变化关联;
  4. 通过模拟数据集和五个真实的数据集验证MITRE工具的性能,发现MITRE与传统机器学习方法准确度相近或者优于传统机器学习方法。

主编评语:

肠道微生物与人类多种疾病密切相关。高通量测序让我们看到了整个微生物群落,但庞大的数量对于我们寻找微生物组内,微生物组同宿主之间的关系却不利。本文作者在之前的研究中提出MDSINE算法用于寻找微生物组时间序列中的菌群动态变化特征。在这里作者又试图处理微生物组变化同宿主状态变化之间的联系并尝试预测,进而开发了工具MITRE:一种基于贝叶斯框架开发的有监督的机器学习方法。与传统随机森林,逻辑回归等机器方法所不同的是,这一工具整合了系统发育信息,作者表示这将更容易发现生物学解释。软件采用python编写,可在github上获取供大家使用。

写在前面

肠道微生物组会被干扰并随着时间发生规律的变化,比如,儿童肠道发育,饮食,医疗干预,这些都会对肠道微生物群落产生巨大改变。近年来,越来越多的研究关注纵向的研究,也就是通过时间梯度取样将微生物群落的改变同宿主的某一状态关联,例如:剖腹产,饮食变化,抗生素治疗等等,希望通过微生物组提前预测宿主状态可能的改变。这对于早期诊断十分重要。

但是要从这些研究中最大程度上获得有用的信息,就需要有可以将时间序列的微生物组数据同宿主状态的变化联系起来的算法,目前因应对这样的案例的算法很少。

为了克服将时间序列微生物组数据同宿主状态之间关联的挑战,我们开发了MITRE算法,该计算模型可以从高通量测序的时间序列数据中提取宿主相关的规则,并用于预测。这个包已经开源了,并且挂到了github上(https://github.com/gerberlab/mitre/ )。MITERE属于贝叶斯有监督的机器学习分类器,通过使用微生物组时间序列数据和宿主状态变化的二分类数据进行有监督学习。近年来,关联规则挖掘算法ARM用于寻找微生物之间的交互作用,尽管ARM与贝叶斯学习有某些共性,但是ARM方法主要用于交互式的探索挖掘大数据,而不是建立模型。

之前的工作中,我们提出了MDSINE算法,该算法可以从微生物组的时间序列数据中推断微生物群落的动态变化,预测微生物组随着时间变化的种群发展动态,这里我们提出的MITRE是来解决另外的问题,我们将时间序列的微生物群落数据同宿主的状态联系起来。从机器学习的角度来讲,MDSINE是无监督学习,而MITER是有监督学习;MDSINE是对微生物组数据本身进行建模,MITRE是专注与在系统发育信息中通过丰度变化寻找合适的规则来解释结果

主要结果

图1. MITRE通过对时间序列的微生物群落的系统发育信息进行学习,同宿主的状态改变联系起来,并构建人类可解释的模型

Fig. 1 MITRE learns human-interpretable rule-based models linking features of microbiota time-series data to host status. Rules operate on
automatically learned time periods and groups of phylogenetically related microbes

image

图1a:MITRE原理示意图,展示了通过 MITRE学习产生一组最佳的模型,同时产生了可替代的其他模型可供使用者进行选择。

image

图b:展示图a中学习得到的规则,也就是在这组模拟数据中有两个人满足这两个条件,表明这两个人患病.

MITRE软件的主要原理架构

Conceptual overview of the MITRE model and software

图1展示了MITRE的整体架构。1. 微生物群落丰度表格,通常是对时间序列样本进行扩增子测序或者宏基因组测定得到的OTU。2. 宿主的状态,以二分数据表示:例如:患病和健康;3. 可选宿主的其他信息,作为协变量选择指定;4. 微生物构造的系统发育树;
因为MITRE试图理解与宿主相关的微生物群落随时间的变化模式,所以有必要为MITRE提供足够的时间序列数据。最少需要3个时间点,但是我们推荐至少6个时间点,最好12个时间点。这是根据后面我们基于半合成的数据分析得到的推断。如果使用不均匀的采样时间间隔,我们建议这批数据至少包含三个时间段之间是连续均匀的

这里展示MITRE学习的结果(MITRE的学习结果可以使用一句话进行概括,找到这批数据中的一个规律,并制定这样一条规则用于分类预测,这也是其不同于传统机器学习的最大的地方),预测婴儿在出生后一年内患病的概率:

  • 如果从第二个月到第五个月,系统发育树A分支的微生物相对丰度高于4%,并且从第五个月到第八个月细菌进化分支B的相对丰度每个月至少增加1%,则发病率增加10倍。
  • 如果从第三个月到第十个月,OTU C的平均相对丰度小于9.5%,则患病概率降低2倍。
  • 基础患病率为22%

基于半真实的数据和真实数据测试模型

Benchmarking against standard machine learning methods: semi-synthetic data

将MITRE同随机森林和逻辑回归分类器的比较,简而言之,就是将数据的一部分用于训练建模,另一部分用于预测模型,使用F1 来评估模型优劣。这里首先模拟了一组患病数据,作者使用的是美国的一组婴儿从出生到两岁的肠道微生物群落变化研究数据。假设患病的对象在系统发育进化树的某个或者某两个分支上随时间发生有规律的变化,来模拟出单个进化分支扰动的患病样品或者两个进化分支扰动的患病样品。通过模拟样本数量测试维持模型准确率需要的最少重复数量和最少时间梯度。让我们欣喜的是MITRE在多个模拟数据中展示了良好的准确率。

我们选取了五组时间梯度采样的研究,这些研究使用扩增子测序或者宏基因组测序得到微生物群落特征。MITER分类器在这五组数据中展示了优越的分类和预测性能。这一结果同我们之前模拟的半真实的数据测试结果一致。总的来说,给予系统发育信息的MITER算法可以对时间序列数据进行强有力的学习,和传统机器学习相比具有明显的优势。

图2. MITRE和其他分类器对半合成和真实数据的交叉验证和预测表现

Fig. 2 Cross-validated predictive performance of MITRE and comparator methods on semi-synthetic and real data

image

图a-d 是根据真实的数据通过参数自展方法生成半合成的数据。通过随机抽样,置换进化树的叶分支来模拟生成发病案例(这一规律的扰动大于占整个时间梯度的20%左右)和相同数量的对照案例。

对于一个进化分支扰动的案例测试:处理组扰动了一个进化分支的微生物,对照组未进行扰动;对于两个进化分支扰动的案例测试:处理组扰动两个进化分支,对照组扰动一个进化分支。

图a,b 模拟样本数据数量对模型准确率的影响,在18个时间点内通过一个或者两个进化分支扰动模拟不同数量的样本组进行模型评估。

图c,d 通过一个或者两个进化分支扰动模拟32个数据,同时设置不同的时间梯度样本组,检测模型需要多少个时间梯度准确率最高。

图e:使用真实数据来预测每个样品的分类类别。F1值是模型精率和召回率加权平均和。值越大模型越好。

a–d Results on semi-synthetic data.
A parametric bootstrapping-type method was used to generate simulated data from an underlying real dataset. Simulated cases were generated by
randomly selecting and perturbing bacterial clades over a randomly selected limited time window (~ 20% of the duration of the study);
an equal
number of control subjects were simulated.
For the one-clade perturbation scenarios, the clade remained unperturbed for the simulated cases; for the
two-clade perturbation scenarios, one clade was perturbed in the simulated control subjects, and both were perturbed in the simulated cases. a, b
One or two clades randomly perturbed in simulated subjects, 18 time points, varying numbers of subjects.
c, d One or two clades randomly perturbed
in simulated subjects, 32 subjects, varying numbers of time points.
e Results on real data. The different methods were used to predict the indicated
categories in the datasets shown. F1-score is the harmonic mean of precision and recall; higher scores indicate superior results

模型的解释性能和探索性分析

Benchmarking against standard machine learning methods: real data

我们在这里举例说明MITRE在保持良好的解释性的同时提高精确度的能力。在
Bokulich等人的研究中,MITRE学习了到了最佳规则,以区分以配方奶喂养的婴儿和以母乳喂养的婴儿样本。这些规则认为:如果婴儿在生下来到156天之间,进化树节点13241的平均丰度增加速度超过了每天0.03%,则这个婴儿主要是由配方奶粉喂养的概率为79%。尽管这个规则非常简单,简单到可以用一句话来描述,到那时预测性能却优于随机森林。而这条规则更容易对这个微生物进行生物学解释。进化树节点13241是一种广泛存在的厚壁菌门细菌,具体分类到Ruminococcus gnavus, Roseburia hominis, 和少数ClostridiumBlautia。这些微生物被认为能更好的代表成年人或者成熟的肠道微生物群落。这些菌是具有特定碳源要求的严格厌氧菌。

MITRE允许用户可交互的寻找可解释的规则,如图3所示,用户单击热图上的深色区域,这些区域是与目标结果中观察到的微生物群落的变化最为相关的区域。单击这些不同的区域用户可以根据实际情况来制定规则解释MITRE模型学习到的变化,并做出合理的解释。

图3. MITRE支持交互式的探索模型,允许模型探索学习一些用户指定的规则

Fig. 3 MITRE supports exploratory analyses through an interactive visualization interface. The interface allows the user to explore the distribution of learned rules.

image

MITRE 用于预测David(a-c)或者Bokulich(d-e)等人文章中不同饮食类型的肠道微生物样本。每个小块的颜色代表在某个时间段某个OTU或其祖先物种的丰度动态变化与饮食的相关强度。

图b,c,e. 模型学习到的一组具有高解释度的OTU特征及其系统发育进化树特征。

图b,c. 展示了通过两种不同饮食驱动的群落学习得到的两组OTU的系统发育变化。这两组OTU的变化区分开了植物和肉食两种不同饮食习惯的微生物样品,一组微生物可以产生丁酸盐,另一组没有,表明了两种不同的饮食习惯驱动了功能不同的微生物变化。

图e. 模型预测表明配方奶粉驱动的微生物群落变化更接近成人肠道微生物群落。

MITRE was applied to predict diet type from data from David et al. (a–c) or Bokulich et al. (d, e). In a and d, cell colors
indicate the strength of evidence that the dynamics of an OTU, or one of its ancestors, during a time window is associated with diet. b, c, e
High-probability detectors and phylogenetic subtrees to which they apply.
b, c Analyses reveals dynamic behaviors of two different clades, one with butyrate producers and the other without, which distinguish subjects on plant- or animal-based diets. The animal-based diet thus promotes
two groups of phylogenetically distinct microbes which are also likely functionally distinct.
e Analyses reveal dynamic behavior of a clade of
bacteria, associated with a more mature microbiome, which is increased in the predominantly formula-fed infants, suggesting the formula diet
may shift infants toward more adult-like gut microbiota. Red lines, threshold slopes/abundances; black lines, median slopes/abundances. Median
effect = median over all rules containing the detector

材料方法

MITER软件操作和输入要求

Operation of the software and input data requirements

MITER在python2.7版本实现,该软件使用命令行运行,需要使用简单的配制文件制定参数和其他输入文件

MITER分析需要四个文件,:

  • OTU丰度表格
  • 构造样品时间序列和主题的表格
  • 输出表格
  • 进化树

全三个表格均使用逗号为分隔符,第四个进化树文件为.jplance(可由pplacer产生);可以使用宏基因组产生的物种数据作为替代;

数据预处理和过滤

Data preprocessing and filtering

MITER提供了许多用户可以配置的选项,用于用户预处理和过滤微生物组时间序列数据。作者推荐使用以下流程进行过滤。

  1. 去除read数量比较少的OTU,通常去除少于10条的OTU。
  2. 丢弃样品测序数据量少于5000条的样品。
  3. 去除不需要或者不好的时间点样本
  4. 去除某个时间点样本数量较少的整组样本。

通过以上四个步骤后,我们将OTU的丰度数据转化为相对丰度,系统发育树父节点的丰度为子节点丰度加和。

  1. 去除相对丰度较低的分类群,去除不常见的分类群,防止模型不能给出有效的解释。
  2. 去除同一个进化树分支上的大量的分类群,因为他们往往具有相似的变化。

注意:当我们的OTU非常多的时候,整个计算过程会非常复杂,计算时间和计算资源的消耗都很大。增加第五步和第六步的严格程度,将整体分析的OTU数量控制在500个以内

生物信息预处理和分析数据集的过程

Bioinformatics and preprocessing for analyzed datasets

对于16S数据整个流程使用DADA2流程,使用pplancer建树。这种方法之前我没使用过,但是作为一种新的建树方法,其可以进行贝叶斯推断进化树的位置枝叶。这一工具目前还在开发中,大家可以去其主页上找到教程并下载测试:http://matsen.github.io/pplacer/; 对于随机森林和逻辑回归方法的实现作者全部在python中使用scikit-learn
包完成。

软件github开源

https://github.com/gerberlab/mitre/

Reference

Elijah Bogart, Richard Creswell & Georg K. Gerber. MITRE: inferring features from microbiota time-series data linked to host status. Genome Biology 20, 186, doi:10.1186/s13059-019-1788-y (2019).

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1788-y

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

发布了511 篇原创文章 · 获赞 294 · 访问量 118万+

猜你喜欢

转载自blog.csdn.net/woodcorpse/article/details/102992040