[文献解读#3] 一种反向生态学方法:用基因流定义微生物种群

    科技2022-07-10  126

    微生物文献解读:问题串联文章思路,快速看懂正文主图。

    A Reverse Ecology Approach Based on a Biological Definition of Microbial Populations

    杂志:Cell [38.637]发表时间:8 August 2019第一单位:Department of Civil and Environmental Engineering, Massachusetts Institute of Technology第一作者:Philip Arevalo通讯作者:Martin F. Polz链接:https://linkinghub.elsevier.com/retrieve/pii/S0092867419307366

    点评

    大家都同样是做HGT,本文题目就丝毫未提及HGT,而是上升到population definition的水平,强调概念的提出而非方法的设计,还避免了与其他HGT方法的比较。从进化学、生态学、种群学出发,将方法升华到方法论+体系的高度,活该人家发cell。

    简介

    本文从反向生态学角度,开发了一个能够检测近期横向基因转移事件(recent HGT)的算法——-PopCOGenT,可以刻画基因组之间的基因流(gene flow)。由此将微生物种群(population)定义为基因流较为割裂的cluster,进而赋予种群以生态学上的意义。

    背景

    Q: 什么是种群(population,下文简称pop)?

    A: 根据传统进化学概念可以推导出,种群是由同一个species的个体、但与该species的其他个体/群体有生殖隔离的成员组成。pop内的个体受到相似的选择压力。可以看出,种群是生态与进化的基本单位,许多生态学和进化学理论都是建立在种群的概念上。

    Q: 为什么要研究种群?特别是微生物的种群?

    A: 植物和动物等大型生物的生殖隔离清晰,种群明确,生态学和进化学理论非常成熟。但是因为HGT在微生物中广为流传,给他们定义种群就特别困难,更别说运用这些成熟的理论了。因此,如何定义微生物种群就显得十分重要(of paramount importance)。一旦定义成功,就可以研究他们在不同环境下与宿主内,如何协作交流、承受进化压力等。

    Q: 16S或者其他marker gene不是可以很好地区分到species层面吗,还研究种群做啥?species与种群是什么关系?

    A: 前人根据生态动态学将微生物的species进一步划分成种群,因此,pop是species更下层的一个划分,而且有生态学上的意义。但是发现无论是species的全基因组ANI(平均核苷酸一致性)cutoff还是16S marker gene都无法将pop区分开来。

    Q: 上个问题产生背后的原因?

    A: 一个pop因为接受同样环境下的gene sweep(就是选择压力同时对不同genome上同样的位置产生压力使得他们发生相同改变),因此在一些片段或者位点产生了一样的变化(可以是因为点突变也可以是因为HGT/重组)。但是genome的其他地方还是保持相对不变,因此当用整个基因组相似性来做cutoff,或是单纯比较16S时,他们基本是分不开的。除非,你把这些一致变化的片段+位点拿出来,只看他们,否则是无法区别的。

    Q: 什么是反向生态学(reverse ecology)?

    A: 我们先说一下遗传学。正向遗传学是从表型变化研究基因变化,反向遗传学则是从基因变化研究表型变化。其实类比到这里也是一样的,传统生态学是先看生态上有区别的群体,再研究基因层面上是什么造成了区别。因此,反向生态学就是,先研究基因,从基因上推断生态学上的区别。它在本文中具体阐释为:uses comparative genomics to predict ecological and metabolic features without any prior assumptions – 不事先知道生态上的信息,仅依靠比较基因组学来预测生态与代谢特征。

    Q: 所以本文到底用反向生态学怎么解决了上面的问题?

    A: 通俗点说,本文就是检测了一堆来同一个species的genomes的近期HGT,用有无HGT以及HGT的长度确定genomes(为网络的节点)中的gene flow关系和大小(为网络的边),画成网络。将网络上gene flow割裂的簇划分出来,定义为pop。因为gene flow在pop内高,pop间低,代表了基因的流向的隔离,同时gene flow将gene 功能赋予每个簇,因此也有生态学上的意义,这就实现了反向生态学的方法论–从基因组反推生态功能。

    补充:

    Q: strain和population的区别?和genomes的区别?A: 我认为:把你比作一个genome,那strain就是你的直系亲属们(爸妈、儿女,你们几乎一模一样,可能就一丁点区别可以忽略不计)。population就是华人。species就是你所在的智人种。所以虽然你和黑人白人都是智人但是华人来往更紧密,且基因几乎不外流(除了并未与其他有色人种有生殖隔离,此比喻很恰当了)。

    结果

    PopCOGenT的算法思想

    Q1: 算法最重要的假设是什么?什么是identical region?A1: 定义:在两个genome alignment中没有突变的一模一样的region就叫做identical regions。 DNA可能来自垂直遗传(上)或横向转移(下),比起前者,横向转移的DNA还来不及积累SNP。因此,只要看到两条genomes之间的ident regions分布显著高于垂直遗传的ident regions分布(背景分布),那就说明这两个genomes之间有gene transfer。详见Figure 1A。 换句话说,就是我们认为发生了重组(基因交换)的两个genomes他们的ident regions应该比背景数量上更多、长度上更长

    Figure.1A

    左:两个genomes中的identical DNA可能来自垂直遗传(上)或横向转移(下),比起前者,横向转移的DNA还来不及积累SNP。因此,只要看两条genomes之间的ident regions分布显著高于垂直遗传的ident regions,那就说明这两个genomes之间有gene transfer。
    右:虚线是推导出来的没有发生gene transfer的genome alignment比例中有对应长度ident regions的关系图(常识理解:ident regions越长,背景模型下genome越少能找到这么长的ident region;极端情况,当ident region几乎到genome长度,genome上没地方(0%)能找到这样的ident region);实线是观察到的ident region与genome alignment的分布. 我们在图上画一条水平线,可以看到同样genome百分比下,重组的(实线)比没重组的(虚线)对应更长的ident regions(说明regions更长)。同理,再画一条垂直线,可以看到相同长度的ident region下,重组体(实线)比非重组体(虚线)找到了更多这样的序列(说明更频繁)。
    Q2: 算法具体是怎么计算的?分几步?A2: 设计基于pairwise genome的null model of mutational distribution,得到ident region的背景/期望分布;统计真实看到的两两genomes的ident region分布;真实分布与期望分布在每对genome alignment上差值平方和叫做length bias,衡量genomes之间远离期望ident region分布的程度;length bias作为两两genomes的的边关系,构建gene flow网络;将网络上没有gene flow连接的簇定义为在基因、生态学上有意义的pop。

    Q3: null model of mutational distribution是怎么设计的?

    A3:

    Q4: length bias是怎么算的?

    A4:

    富集identical regions(即length bias)可以敏感地检测出近期HGT

    Q1: null model真的反映了非重组的ident region分布吗?【假阴性如何】A1: Figure B显示7个species数据(每组一对genomes)中非重组体的分布都稍高于null model(就是至少没有已知的非重组体比null model要小,至少没有假阴性)。但是Fig2B显示非重组体都高于null model但是有些length bias更大,可能是有些重组没测出来,也可能是因为genome size有区别。

    Figure.1B-C

    根据genome size修改null model,并将null model和重组以及非重组的分布进行比较。

    (对Figure.1B-D的进一步说明)Figure 1C 进一步发现这些非重组体length bias与genome size真的有线性的关系。从文献推测是因为genome size更长,因为正向选择删掉了更多的碱基差异,造成更少的突变+更多的ident regions。

    如果上述推论成立,那么熟知的受正向选择的gene(例如核糖体基因)更应该富集在ident region中,而且genome size越大,这个基因富集程度越高。而从Fig1C中,我们知道非重组体中Buchnera基因组最小,Salmonella最大。因此,我们拿出这些非重组体,看看核糖体基因在ident region上的比例(Fig.1D),我们发现果然genome size越大这个比例越高,进一步坐实了上述理论。

    Figure.1D

    非重组体中,核糖体蛋白在长ident regions的比例。基因组越长,这个比例越高。间接说明length bias在非重组体中会受到更大的genome size上过多的正向压力选择影响,从而偏大,因此需要根据genome size做出调整。

    Q2: 既然genome size大(导致更多的正向选择,减少mutation)会影响到非重组体的length bias增加,那怎么确定重组与非重组的阈值呢?

    A2: 那就把非重组体的genome size和其length bias做线性拟合,将对应length bias的90%上限定为阈值(相当于一个置信区间,即Fig1C虚线)。下次再来一对genomes的 alignment,将其genome size带入这个线性方程进行计算,得到转化后(normalized)的null model length bias作为阈值,如果>=这个阈值就认为是重组体,<就是非重组体。

    Q3: 重组体的ident region分布真的显著高于null model吗?【假阳性如何】

    A3: 根据genome size改进过的null model,我们可以看到重组体的分布确实是高的(见Fig1B-C中最后三个species数据)。文中还进一步讨论了重组体的length bias可以由模拟HGT事件重现,而phylogeny结构以及genome组成特征改变则不行。

    Q4: PopCOGenT能否区分recent和historical HGT?

    A4: 答案是应该能。本文做了这么一件事,选择了5条genomes,计算机模拟他们进化,当5条genomes都达到了0.001的substitution/site(每个位置发生了0.001碱基替换)后,随机选donor和recipient genomes插入1000个长度为1000bp的transfer genes。之后继续突变,直到他们累积突变到0.005 substitution/site。这个过程重复50次(因此Figure 2中有shaded regions)。同时引入了三个指标,分别是mean length bias(mean是因为需要计算多个两两genomes的length bias所以取平均),h/m,r/theta,第一个是本文的指标,后两个指标是前人以gene特征刻画重组的指标。之后,每隔0.0001的substitution/site间隔对这5条genomes记录这些指标。 发现从0.001 sub/site时引入HGT后,length bias比起他指标下降更快速;其次,当mut累积到0.005 sub/site时,length bias早就回到了背景值,但是后两个指标还能检测出HGT(没有回归0值就是说还有检出存在)。这就说明,本文的length bias比起其他研究historical HGT的指标,只能检测到大约再多0.001 sub/site累积(即0.002 sub/site)的HGT,也就是更recent的HGT。【其实Figure 2只是说明了比起另外两个指标,本文指标检测的HGT是较新的HGT,但是并没有说明别人的指标就不是新的HGT了?而且这些HGT新到什么程度?会不会过于新从而漏掉了一些recent HGT等之类的问题】

    Figure.2

    随着突变积累时间,三个指标对HGT的检测能力变化。

    在genomes mutation累积到0.001 sub/site时,计算机模拟在genomes中加入HGT,并继续进行genomes的突变。相比于h/m(绿色, A)和r/theta(紫色, B),mean length bias(红色)这个指标在HGT出现后更快的失去检出HGT的能力。同时,当突变都比原来累积了5倍(0.005 sub/site)时,其他两个指标都还存在HGT的检出,length bias早就检不出来了。因此说明,length bias相比于其他研究更能检测到较为recent的HGT。

    PopCOGenT识别种群为基因与生态单位

    Q1: 此部分的数据是什么?用了什么方法?

    A1: 选取3个在生态学有区分且研究透彻的微生物(即Vibrio, Sulfolobus, Prochlorococcus)。使用length bias大小与有无作为genomes的边,代表gene flow,构建gene flow network。再用gene flow方法找到的割裂的units作为生态学上有意义的pop。

    Q2: 用gene flow方法找到的割裂的units结果如何?与其他研究结果相比?

    A2: 首先前人基于重组、gene模式等方法都不能很好地找到紧密联系但生态学上分离的pop。但本文开发的Gene flow networks 基于length bias是高度结构化的,找到的簇与生态学几乎复原了前人对这3种微生物在生态学上的pop划分。同时要注意一点的是,他们仅仅是用有无gene flow做判断,而没有用任何其他的cluster方法(这是最厉害的地方)。

    Q3: gene flow network还做了其他调整吗?

    A3: 在network上也发现了有些pop是刚刚speciated的(如Fig3A中Vibrio cyclitrophicus的三个subgroups)。表现在他们虽然在一个group中但是近期的gene flow还连着他们。因此本文引入了Infomap,一个可以区分新生pop的聚类方法。

    Q4: 为什么选择Infomap?Infomap的优点是什么?

    A4: 因为它是基于最小化构建网络信息的方法聚类,因此并不依赖于一个固定的cutoff,对微生物网络有更好的普适性。

    Q5: gene flow network在范式改变上的重大意义?

    A5: gene flow network呈现的pop间割裂,显示出genomes并不是由MGE高度相联系的。这大大改变了人们认为微生物随便两个genomes就可以发生gene转移的观念。

    Figure.3

    gene flow network在三种微生物上的聚类情况。在phylogeny上分不开的genomes,在这里可以近乎完美地分离成生态学上独立的clusters。

    Q6: PopCOGenT还有什么优势?A6: PopCOGenT不依赖于global alignment,因此1.也可以检测MGE上的gene flow;2. genome 有缺失也没关系,这就对single cell genomes很友好(前提是genome要是高质量的)。

    反向生态学方法预测生态种群,相互联系以及选择压力

    Q1: 此部分的数据是什么?为什么选择这个数据?

    A1: 之前都是在分析环境微生物,因此为了减少环境信息,这回选择了肠道菌Ruminucoccus gnavus(活泼瘤胃球菌)作为例子。又因为之前研究发现,IBD(炎症性肠病)病人与两个R.gnavus clades分别有关,因此可以指导我们找到不同功能的pop。

    Q2: 这部分做了什么工作?目的是什么?

    A2:

    用gene flow预测pop;寻找受到pop特异性选择压力sweep的alleles和genes(=biomarker)用这些alleles和genes将pop与cohort种类联系起来。 (总之,目的是将本文的方法论做一个case study。) Q3: 第1部分工作结果如何?A3: 见Figure 4.

    Figure.4A

    用gene flow方法找到了3个pop(I-III)。可以看到genome source和pop并不统一,说明source不是定义pop的因素。也说明发生了近期的pop分化事件。

    Q4: 除了看gene flow,有其他证据表明pop在近期真的有所分化吗?A4: 见Fig.4B。

    Figure.4B

    如果近期pop的确分化了,那么pop内部的genome上只有少部分gene发生了改变(且不同pop改变的gene不一样),这些gene在phylogeny会形成monophyletic(单系群);而genome其他部分不变,还是保持原有树状结构。如果pop内部单系群比例高,那就说明真的有pop在生成。【其实大白话说就是pop内部要有特异性sweep的压力产生】。因此本文对R. gnavus的core genomes构建系统发育树(因为core genome代表所有genomes共有的genes,否则他们不在一个树上比较,就无法消除背景差异),发现相比于all pop,3个pop中的单系群比例相当高,说明他们的确是新生的pop。【所以,pop成熟阶段可以用gene的单系群程度来量化?】

    Q5: 第2部分工作结果如何?A5: 这部分是去找带有受到pop特异性选择压力产生alleles的regions(叫sweep regions)。这些alleles被定义为:在pop内群成员专门享有的低变异度(比正常突变产生的变异度显著低)的alleles(因为受到一样的压力,那么一个种群内部的特异性alleles应该尽量相似,不相似的被选择清除了)。结果见Figure 5A-C.

    Figure.5A-C

    在pop I、II(III数量太少不做计算)中寻找pop特异带有低变异度的alleles的regions(叫做sweep regions),除了发现他们在pop内部有低多样性(A),还意外发现计算这些alleles在pop间的核苷酸多样性高于全基因组平均值(B)。最后还计算了Fixation index(C),此值高于总体平均也说明pop I、II是高度分化的(Fixation index计算请参考https://en.wikipedia.org/wiki/Fixation_index)。

    补充:

    为什么用pop特异性的alleles来预测pop的生态学、代谢学特征,赋予pop生物学意义?因为传统正向遗传学中要想找差异的alleles,是需要根据表型来逐个敲掉基因/SNPs的,对于实验来说太累了。所以反过来,用计算手段反向找差异的alleles然后反推造成pop特异性的表型,可以极大地指导实验。

    Q6: 找到的sweep regions在genome上是怎么分布的?【注意,sweep regions是允许有突变存在的,它和ident regions概念不同】A6: 发现虽然trasnfer的region片段大小变化很大,但是sweep regions都集中在一个gene或者一个domain上(Fig.5D)。 具体例子上,发现pop I特异的alleles(SNPs)和pop II特异的alleles(SNPs)集中在不一样的位置(基因功能)上,各自安好(Fig.6A,6B)。 但是也有在同一段位置(基因功能)上,pop I和II的alleles(SNPs)同时出现的,但是相互仍有所不同(Fig.6C)。

    Figure.5D

    pop I,II特异性的sweep regions在reference genome上位置的呈现。

    Figure.6

    (A) 仅在pop I特异的alleles(SNPs);(B) 仅在pop II特异的alleles(SNPs); ©同一段位置上,pop I和II的alleles(SNPs)的分布也表现出不同。并且这些位置对应的gene功能也标记了出来。

    Q7: 第3部分工作结果如何?A7: 为了今后可以将pop特异的SNPs和genes用于快速分型健康疾病以及疾病亚型,这里做了探索性的关联分析(Fig.7)。本文将healthy、UC,CD三个cohort的reads map到reference genome上(上面事先标记SNPs与genes信息)。 发现healthy的宏基因组reads在pop I特异的SNPs上map的比例最高;CD的宏基因组reads在pop II特异的SNPs上map的比例最高(Fig .7A,B)。相似的结论也在pop特异的genes上看到(Fig.7C,D)。

    Figure.7

    pop I & II 的特异性SNPs(A,B)与genes(C,D)在不同类型cohort上富集。因此他们可以与cohort种类进行关联,并作为区分cohort类型的指标。


    可改进之处:

    这篇文章本质上是将以前的16S、marke gene比对,放到了更多的identical regions上,如果用这些identical regions来建phylogeny的话,应该也可以展示出本文的gene flow units在网路上的关系。(即我相信用其他不那么绕的方法,也可以看到本文网络上的结构。)阐述算法的验证数据量还是较少。在构建gene flow和找sweep regions上逻辑连贯性不足:gene flow是基于ident regions来的,但是在找pop特异性region时却抛弃了这个概念,转而去看pop内部共有alleles。如果要使得逻辑更为连贯,应该继续看ident regions(哪怕是几个regions的组合),并找出pop特异性ident regions;或者在构建network时,就以alleles作为特征进行构建,拥有一类与其他cluster明显不同alleles的cluster是一个pop。又或者在构建网络时,两者都考虑;在找pop特异性片段时,两者也都考虑。【思考亮点】如果上述分析过程是最佳的,逻辑上的不连贯性可能表明背后暗含的现象:在所有pop内部的gene flow是相似的,都会传播A、B、C片段,所以分析这些片段并不能展现pop特异性。所以gene flow的流通只能划分pop,但是要区分pop在生态学上的特异性,还需要看选择压力造成alleles的区别。可是通读本文没看到这个假设的讨论,也没看到对不同pop间gene flow片段的比较。既然对于近期HGT,mutate都来不及,那是不是表观遗传也来不及修饰,这个是不是也可以作为null model的一部分呢。
    Processed: 0.041, SQL: 8