?技术与方法?BIOTECHNOLOGY BULLETIN
生物技术通报
2015, 31(2):71-7716S rRNA测序技术在肠道微生物中的应用研究进展
李东萍1 郭明璋1,2 许文涛1,2
(1.中国农业大学食品科学与营养工程学院,北京 100083;2. 中国农业大学 食品科学与营养工程学院食品安全检测与风险评估实验室,
北京 100083)
摘 要: 16S rRNA测序是高通量测序依赖的肠道微生物研究方法之一,该方法可以对肠道微生物中的所有菌种进行精确定量,因此正逐渐成为研究肠道微生物菌种丰度变化的主流。肠道微生物16S rRNA测序的应用过程中有两个问题至关重要,一是如何根据需要选择测序方案;二是面对高通量测序得到的海量数据,如何进行生物信息学分析,以得到具有生物学意义的结果。从测序平台、测序片段、测序数据量的选择3个方面讨论了如何选择测序方案,并从序列聚类与注释、群落结构分析、关键分类单位的筛选与功能分析等方面对目前常用的生物信息学分析手段进行综述。
关键词: 肠道微生物;16S rRNA;高通量测序DOI:10.13560/j.cnki.biotech.bull.1985.2015.02.010
Advances and Applications on Methodology of 16S rRNA Sequencing
in Gut Microbiota Analysis
(1. College of Food Science and Nutritional Engineering,China Agricultural University,Beijing 100083;2. Laboratory of Food Safety Detection and Risk Assessment,College of Food Science and Nutritional Engineering,China Agricultural University,Beijing 100083) 16S rRNA sequencing is one of the high-throughput-sequencing-based methods used in gut microbiota analysis. Almost all the Abstract:
bacterial species in gut microbiota can be quantified through 16S rRNA sequencing, which has made this method into the mainstream. Two issues are very important in the application of 16S rRNA sequencing:sequencing strategy and bioinformatic analysis. In this review, three aspects of the sequencing strategy, including sequencing platform, sequencing region, and data size were discussed. While on bioinformatic analysis, the advance in sequences cluster and annotation, microbiota structure analysis, key taxa screening and functional analysis were reviewed here.
intestinal microbiota;16S rRNA;high-throughput sequencingKey words:
Li Dongping1 Guo Mingzhang1,2 Xu Wentao1,2
近年来肠道微生物与饮食和健康的关系被越来越多的阐释,在很大程度上得益于肠道微生物研究技术的快速发展。肠道微生物的研究大 体经历了培养依赖的方法,非培养依赖的传统分子生物学方法,基于测序的高通量组学方法3个阶段。鉴于本课题组已针对前两个阶段的方法发表了专门的综述文章,对此做了详细全面的介绍和比较[1],在本文中,将对第三阶段的方法,即近几年发展迅速并成为主流的16S rRNA高通量测序法作详细介绍。
通过比较3个阶段研究方法的特点与应用,人们可以发现培养依赖的方法在鉴定菌种的同时即可获得相应菌株,方便后续研究,但培养法本身费时费力,肠道微生物以厌氧菌和兼性厌氧菌为主,培养起来更加困难,并且在培养的过程中菌种比例会发生改变,使得其应用存在瓶颈。非培养依赖的传统分子生物学方法可以不经培养直接从样品中提取肠道微生物基因组,利用分子生物学手段进行分离、鉴定和定量,使其结果可以比较准确的反应肠
收稿日期:2014-06-28
基金项目:北京市科技新星计划(XX2014B069)作者简介:李东萍,女,研究方向:食品科学与工程;E-mail:345908374@qq.com通讯作者:许文涛,男,副教授,博士生导师,研究方向:食品病原微生物的检测技术和致毒机制、转基因生物检测和食用安全性评价、
食品源风险因子对肠道微生物健康的影响;E-mail:xuwentao1111@sina.com
72
生物技术通报 Biotechnology Bulletin
2015,Vol.31,No.2道微生物中高丰度菌种的组成和真实比例。但是传统分子生物学方法存在着通量低的缺陷,靶向方法如实时定量PCR每次只 能研究一种或一类肠道微生物,而非靶向方法如最常用的梯度变形凝胶电泳(Denaturing gradient gel electrophoresis,DGGE)受限于灵敏度,往往只能研究肠道中高丰度的微生物。肠道微生物群落组成复杂,每种细菌都与其他细菌形成复杂的相互关系网络,低丰度的菌种同样扮演者重要的角色,使得传统分子生物学研究结果往往具有片面性。
基于测序的高通量组学技术解决了上述问题,它可以对肠道微生物进行高灵敏度的精确定量,获得覆盖整个微生物群落的信息。事实上,基于测序的高通量组学技术出现并在肠道微生物领域应用,才真正实现了对肠道微生物全部菌种的结构和功能的整体研究。
16S rRNA测序技术是最常用的高通量测序依赖的组学技术之一,该技术着眼于对肠道微生物群落菌种组成的分析。细菌16S rRNA基因具有保守区与可变区间隔排列的特征,其中的可变区一般具有菌种特异性,并且可以反映细菌间亲缘关系的远近,因此通过分析可变区的序列即可得到各细菌的分类学特征。传统分子生物学方法中有时也应用Sanger法对单一菌种的16S rRNA进行测序和鉴定,而16S rRNA测序技术通过结合高通量测序技术的高通量优势和16S rRNA基因的菌种鉴定优势,实现了对复杂样品中混合菌种的分类学鉴定和精确定量。16S rRNA测序技术的基本流程是在提取肠道微生物基因组后,利用PCR技术扩增16S rRNA片段,通过高通量测序测定出所有扩增产物序列,分析各序列所代表的细菌,从而推导出肠道微生物菌种的组成。
在应用16S rRNA测序技术的过程中有两个问题至关重要,一是如何根据需要选择测序方案;二是面对高通量测序得到的海量数据,如何进行生物信息学分析,以得到具有生物学意义的结果。现阶段不同的研究者面对上述两个问题有不同的选择,尚未形成统一的标准。本文将对16S rRNA测序技术测序方案选择与数据分析策略进行总结,希望能为相关研究者提供参考。
1 16S rRNA测序技术的应用
1.1 16S rRNA测序技术在人类微生物组学及疾病
相关研究中的应用
16S rRNA基因很早就应用在微生物菌种鉴定上,但利用高通量测序进行16S rRNA分析最早出现在2006年,Sogin等[2]应用该技术对深海微生物群落进行了分析。随后该技术在肠道微生物领域得到了广泛应用。
2007年,美国国立卫生研究院启动的人类微生物组计划中,16S rRNA测序技术是主要技术手段之一。以该技术为主体的科研成果多次发表在Science、Nature等国际知名杂志上。通过对大规模人群的16S rRNA测序,科学家们研究了不同地域、不同年龄段的人群的肠道微生物特点[3],探讨了肠道微生物形成和稳定机制[4,5]。通过对慢性病患者的16S rRNA测序,科学家研究了肥胖[6]、糖尿病[7]和心脑血管疾病[8]等与肠道微生物的关系。本课题组则通过16S rRNA技术研究了食品源风险因子,如食品中的生物毒素[9]、转基因食品、抗菌肽等新型生物保鲜剂等对肠道微生物的影响。综上所述,自2007年以来,16S rRNA测序技术已经逐步成为肠道微生物群落结构研究的主流,并且有很好的发展前景。
1.2 何时选用16S rRNA测序技术
虽然肠道微生物与宿主健康的关系被越来越多的揭示,但由于现阶段测序成本还比较高,研究者应避免盲目追风的开展肠道微生物的测序研究。在开展实验前,通常要有足够的信息表明肠道微生物与所研究的问题有潜在的相关性。如Lozupone等[10]依据HIV-1病毒可以引发急性肠道相关淋巴组织实质性损伤和Th17细胞(一种控制肠道细菌的CD4+ T细胞)的大量耗损而推测HIV病毒感染可能会造成肠道微生物的变化;Zhang等[11]发现中药成分黄连素对2型糖尿病有缓解作用,但黄连素被吸收进入血液循环的量很低,再加上黄连素有显著的抑菌作用。由此推测,黄连素可能通过改善肠道微生物的方式缓解2型糖尿病。若没有足够的信息又希望开展16S rRNA测序,建议可以采用以下两种方法:一是先以传统方法如DGGE等为探路石,初步探测肠道微生物是否有显著变化;二是先采取每组混样
2015,31(2)李东萍等:16S rRNA测序技术在肠道微生物中的应用研究进展
73的方法进行16S rRNA测序,这样虽然不能开展多样性分析和显著性检验,但是可以初步的确定肠道微生物整体水平上是否有变化,进而决定是否开展后续试验,并可为测序组别的选择提供参考。
了Miseq测序仪分析的不同16S rRNA可变区的准确性发现,测定V4区效果最佳,并且在V4区的测序分析效果上不差于454平台。
2.3 测序数据量的选择
现阶段不同研究者开展16S rRNA测序获得的数据量差异很大,如同样是454 GS FLX测序平台,每个样品平均序列数从两千条到几万条不等。Lundin等[16]研究表明,对于454测序数据来说,每个样品1 000条序列即可反映90%的β多样性信息,而每个样品5 000条序列才能反映90%的α多样性信息。不同的测序平台、可变区选择、宿主类型及生理状态都会对所需的数据量产生影响,因此,对数据量的要求很难有统一的标准,应用稀疏曲线(Rarefraction curve)分析测序数据量是否足够是比较稳妥的方法。
2 测序方案的选择
2.1 测序平台的选择
目前高通量测2序平台呈现三国鼎立的局面,Roche公司的454 GS FLX平台,Illumina公司的Hiseq和Miseq测序平台,以及Life Technologies的ion torrent测序平台占据着高通量测序的主要市场份额。目前在16S rRNA测序方面,454 GS FLX平台和Hiseq、Miseq平台应用更为广泛。测序长度和序列数是选择测序平台的重要依据。454 GS FLX平台测序长度较长,可以达到400-500 bp,但是得到的序列数比较少,每个样品的数据通常只有约1-2万个序列。Illumina公司的Hiseq 2000测序仪单端测序长度只有100 bp,但是每个样品可以获得约10-100倍于GS FLX测序仪的序列数。Illumina公司的另一款测序仪Miseq,单端测序长度可以达到250 bp,一般每个样品可以保证测定4-6万个序列数,并且测序时间短,价格较低。Hiseq和Miseq通常使用双端测序,部分的弥补了测序长度短的缺点。
2.4 测序方案选择的建议
上文已对测序平台、测序区域及测序数据量做了基本介绍。研究者在进行具体的选择时,应充分考虑实验目的、课题经费、课题时限、各个测序平台的易得程度等问题。对于一般性的肠道微生物研究,利用Miseq测序仪对16S rRNA的V4片段进行双端测序是当前比较流行的测序策略,该策略时间短,费用也相对较低,每个样品可得到40 M至100 M条序列,足以开展后续的生物信息学分析。如果研究者对准确度有更高的要求,则应考虑使用GS FLX测序仪对更长的16S rRNA片段(如V4-V5区,V3-V5区)进行测序。测序片段越长,在后续对序列进 行物种注释时的准确度越高,可以更加真实地反映肠道微生物物种组成。
2.2 测序片段的选择
16S rRNA总长约 1 540 bp,包含9个可变区。由于高通量测序的测序长度的限制,不可能将16S rRNA的9个可变区全部测序,所以在PCR扩增时往往只能选择1-3个可变区作为扩增片段。454平台测序长度较长,科学家们对该平台上对不同可变区的选择做了较多的尝试,Claesson等[12]比较了利用GS FLX测序仪分析不同的相邻16S rRNA可变区组合的准确性、分类效率和一致性,发现V4+V5(引物为563F/926R)组合效果最佳。由于Hiseq测序仪的测序长度较短,若想要将双端测序测通,则可选,其他常用的测序片段,如择V3区[13]或V6区[14]
V1+V2区、V4区等,由于长于200 bp,Hiseq双端测序无法测通,影响后续的数据分析。Miseq测序仪出现后,理论上将Illumina测序仪的双端测序长度扩展到近500 bp,虽然实际测序长度仍短于GS FLX测序仪,但足以覆盖整个V4区。Kozich等[15]评估
3 数据分析策略
16S rRNA的数据分析策略方面,还没有形成标准的流程。我们建议研究者在得到注释好的数据后,按照“群落结构整体分析-分类单位差异检验-分类单位的变化与宿主其他生理指标变化的相关性分析-关键分类单位的功能验证”的流程开展分析。
3.1 数据预处理
从测序仪上得到的原始数据通常是所有样品的序列混合在一起的,每条序列上都有标签、引物等人为添加的片段,各序列的测序质量也参差不齐,
74
生物技术通报 Biotechnology Bulletin
3.3 微生物群落结构分析
2015,Vol.31,No.2因此必须进行预处理才能开展下游分析。16S rRNA测序数据预处理通常包括将序列按照样品标签进行分类,去除序列上的样品标签序列和引物序列,去除低质量序列3个步骤,此外双端测序的数据还需进行简单的数据拼接。数据预处理的方法已有相关。文献进行综述报道[17]
微生物群落结构分析是从整体的角度分析各组样品的肠道微生物群落之间是否有显著差异,从而分析实验所关注的因素是否会导致宿主肠道微生物群落结构的显著变化。α多样性、β多样性以及依据样品间不相似性进行排序分析和聚类分析是微生物群落结构分析的主要方法。
α多样性是样本内物种多样性(Within-sample diversity),反映每个样本的物种的丰富度和均匀度。α多样性的高低由α多样性指数表征,在16S rRNA测序数据分析中常用的有香农-威纳多样性指数(Shannon-wiener diversity index),辛普森多样性指数(Simpson diversity index),Chao1丰富度估计量(Chao1 richness estimator)等。如本课题组通过对辛普森多样性指数的计算和比较,发现赭曲霉毒素A(OTA)灌胃组的大鼠,其肠道微生物α多样性显著低于对照组,从而推测OTA对肠道微生物的一些菌。与正常肠道微生物群落种存在抑制生长的作用[9]
相比,多样性指数的升高和下降都可能影响宿主肠。QIIME、Mothur、PAST[25]等软件都可道健康[24]
以进行多种α多样性指数的计算。
β多样性是指样本间多样性(Between-sample diversity),其高低反映每个组内各个样本的群落物种组成差异的大小。人类微生物组计划通过计算同一组内各个样品间的距离来表征各个组的β多样。性,通过比较数值大小来比较各个组的β多样性[26]更形象化的做法是利用距离表征出的样品间的关系,通过主成分分析(Principal component analysis,PCA)、主坐标分析(Principal coordinates analysis,PCoA)等作图方法将所有样品在二维坐标系中表现出来,从而从侧面反映各个组的β多样性及各样品之间的相互关系。
微生物群落样品间距离即群落之间的不相似性,两个群落越不相似,它们之间的距离越大。传统生态学上应用较多的布雷-柯蒂斯距离(Bray-Curtis dissimilarity)在肠道微生物16S rRNA测序分析中。然而布雷柯蒂斯距离将不同的也广泛应用[26,27]
OTU视为完全没有联系的单位,导致 16S rRNA测序数据中存在着的丰富的序列信息没有得到有效的
3.2 序列聚类与注释
将16S rRNA数据按照一定的相似性标准进行聚类是微生物群落分析的第一步,也是关键的一步[18]。测序数据非常庞大,并且由于细菌基因组变异和测序误差的存在,导致即使是来自同一菌种的16S rRNA序列也可能存在碱基差异,因此将每一个不完全相同的序列看做一个菌种进行下游分析耗时,也不科学。按照一定的标准,将相似性达到一定程度的序列视为相同进行合并计数,即是序列聚类的过程。CD-HIT[19]是高效的测序数据序列聚类程序,在各类测序数据中都有所应用,在16S rRNA测序数据分析中,可以将序列进行初步聚类,去除测序误差和少量碱基变异带来的序列差异。另一种序列聚类的方法——可操作单元(Operational taxonomic unit,OTU)聚类,已经成为16S rRNA测序数据分析中必不可少的流程,该方法通常按照97%的相似性阈值将序列划分为不同的OTU,每一个OTU通常被视为一个微生物物种。但实际上,现有的OTU聚类方法存在一定缺陷,97%的序列相似度与传统上“种”的概念并不完全等同。
在实际分析过程中,一些研究者采用两步序列聚类的策略,即先进行99%或更高相似性阈值的CD-HIT聚类,再进行OTU聚类类可以通过CD-HIT、Mothur等聚类可以通过QIIME
[22]
[11,20][3,10]
,另一些研
究者则直接对序列进行OTU聚类。CD-HIT聚
[21]
软件完成。OTU等软件完成。
、DOTUR
[23]
为了对OTU有更直观的认识,通常选取每个OTU中丰度最高的序列为该OTU的代表序列,进行微生物物种注释(虽然OTU与物种并非完全对应)。Ribosomal Database Project(RDP) Classifier是完成这一过程常用的软件。采用QIIME分析流也可自动完成这一过程。
2015,31(2)李东萍等:16S rRNA测序技术在肠道微生物中的应用研究进展
75应用,UniFrac距离[28]解决了这个问题。UniFrac距离利用测序序列信息建立的物种系统发育树,考虑了物种的相似度:如果一个群落中的某物种变成另一个群落中进化关系相近的物种,则视为较小的变化,所反映出的两个群落的距离较小;如果一个群落中某物种变成另一个群落中进化关系较远的物种,则视为较大的变化,两个群落距离较大。非加权UniFrac(unweighted UniFrac)只考虑了物种有无的变化,加权UniFrac(weighted UniFrac)同时考虑了物种有无和物种丰度的变化。UniFrac距离可以在UniFrac网站进行在线计算,也可以通过QIIME分析流进行计算,二者也都可以直接依据UniFrac距离给出PCA或PCoA图。Zhang等[29]通过对加权UniFrac距离进行PCA分析,发现高脂饲料可以使小鼠肠道微生物的群落结构发生明显变化。
聚类分析是另一种直观表示样品间相互关系的方法。该方法利用样品间距离的数据,建立样品的系统发生树,以反映各个样品的聚类情况。QIIME分析流中采用不加权配对组算术方法(Unweighted pair group method with arithmetic mean,UPGMA)法进行聚类,并且折刀分析法(Jackknifing analysis)验证该系统发生树的稳健性。一般来说,系统发生树所反映的样品间聚类或距离的信息少于PCA或PCoA图,因此聚类分析在肠道微生物16S rRNA测序的生物信息学分析中并不常用。
检验[32],Mann-Whitney检验[31]等也都可被用在比较不同组样品肠道微生物分类单位之间差异中。
冗余分析(Redundancy analysis,RDA)是类似于PCA和PCoA的一种分析方法。与PCA和PCoA只将样品间相互关系表示在二维坐标轴所不同的是,RDA可以将样本的物种相对丰度信息和环境因子综合起来进行分析,因此可以用来分析微生物物种和环境因子之间的关系,以寻找与环境因子有关的关键微生物分类单位。Zhang等[11]通过RDA分析,找到了268个与中药成分黄连素处理有关的肠道微生物OTU。
Random Forests法则采用了不同的策略解决寻找关键微生物分类单位的问题。Random Forests构建不同处理或病理状态的分类模型,通过考察移除每一个物种单位后分类模型错误率的增加来判定该物。Lozupone等[10],种在区分不同状态中的重要性[33]
通过Random Forests法找到了区分HIV感染者与健康者肠道微生物群落的关键分类单位发现,拟杆菌科、理研菌科等的降低和单毒丝菌科、普雷沃氏菌科等的升高。
近年来,一些专门用于16S rRNA测序数据分类单位相对丰度比较和Biomarker寻找的软件被开发出来,Metastats[34]和LEfSe[35]是其中的佼佼者。这些软件将统计学方法与已有的生物学信息结合,从而使结果更具有生物学意义。例如,Zhang等[29]利用LEfSe软件分析了长期摄入热量限制对小鼠肠道微生物的影响,发现了乳杆菌属增多等与摄入热量限制有密切关系的肠道微生物变化。
3.4 微生物分类单位分析
如果微生物群落结构表现出整体的差异,则下一步需要找出群落中具体的分类单位来解释这些差异。找到不同组样品之间有显著差异的分类单位有助于人们发现所研究问题与肠道微生物之间的直接关联,其中的一些起关键作用的分类单位也可以作为肠道微生物层面上的生物标志物(Biomarker)。
传统的统计学假设检验可以帮助人们找到各个组之间有显著差异的分类单位。例如,Zhang等[20]通过对葡萄糖正常耐受者和前期糖尿病患者肠道微生物中各分类单位的相对丰度进行Kruskal-Wallis H 检验发现,疣微菌门和疣微菌纲在前期糖尿病患者肠道内显著减少,推测疣微菌纲可以作为葡萄糖耐,卡方受不良的生物标志物。Student’s t检验[30,31]
3.5 关键分类单位的功能分析
通过上述方法寻找到的关键分类单位在不同组中有显著差异,但它们是否具有特定的生物学功能还需要进一步分析和实验验证。
分类单位相对丰度与宿主生理指标的相关性分析可以为分析关键分类单位的功能提供很好的方向。若某一关键分类单位的相对丰度与宿主某一生理指标呈现高度相关性,则该分类单位很可能通过影响该生理指标所反映的宿主代谢过程而影响宿主健康。Zhang等[11]在分析黄连素、肠道微生物和宿主健康三者间关系时就应用了这种分析方法,并将其命名
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库16SrRNA测序技术在肠道微生物中的应用研究进展 - 李东萍在线全文阅读。
相关推荐: