- 2.32 MB
- 59页
- 1、本文档共5页,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 文档侵权举报电话:19940600175。
'细菌宏基因组分类测序项目总结报告合同编号XXXXXXX客户单位XXXXXXX报告时间XXXXXXXXXXXX1/59
目录1.名词解释...........................................................................................................................42.本项目使用软件与数据库:...........................................................................................62.1软件:.......................................................................................................................62.2数据库.......................................................................................................................63.实验流程简介...................................................................................................................74.分析流程...........................................................................................................................75.项目分析内容...................................................................................................................86.流程说明...........................................................................................................................87.分析结果展示...................................................................................................................97.1数据预处理...............................................................................................................97.1.1方法说明.........................................................................................................107.1.2结果展示.........................................................................................................117.2去除嵌合体及靶区域外序列.................................................................................137.2.1方法说明.........................................................................................................137.2.2结果展示.........................................................................................................137.3操作分类单元(OTU)分类.......................................................................................147.3.1方法说明.........................................................................................................147.3.2结果展示.........................................................................................................147.4赋予物种分类单元.................................................................................................177.4.1方法说明.........................................................................................................177.4.2结果展示.........................................................................................................187.5Alpha多样性分析..................................................................................................267.5.1方法说明.........................................................................................................277.5.2结果展示.........................................................................................................287.6Beta多样性分析....................................................................................................347.6.1方法说明.........................................................................................................342/59
7.6.2结果展示.........................................................................................................357.7样本间菌群丰度差异分析.....................................................................................397.7.1方法说明.........................................................................................................407.7.2结果展示.........................................................................................................407.8PTCA/POCA分析.....................................................................................................407.8.1方法说明.........................................................................................................407.8.2结果展示.........................................................................................................407.9RDA/CCA分析.........................................................................................................417.9.1方法说明.........................................................................................................427.9.2结果展示.........................................................................................................427.10进化树分析.............................................................................................................487.10.1方法说明.........................................................................................................487.10.2结果展示.........................................................................................................487.11MEGAN分析...........................................................................................................507.11.1方法说明.........................................................................................................507.11.2结果展示.........................................................................................................508.结果说明.........................................................................................................................529.参考文献.........................................................................................................................573/59
1.名词解释Bp:base-pair,碱基对,读长的单位,每一个bp指一对互补的碱基。Read:读长,测序数据中每一条序列就是一个read。Raw_reads:原始数据Clean_reads:QC之后的数据Barcode:标签序列,位于reads的开头,用于区分这一条reads属于哪一个样本。分配完毕之后barcode会被删除。Fastq:序列数据存储的标准格式之一,每4行为一条read的信息。包含测序read名,序列,正反链标示,序列质量值Fasta:序列数据存储的标准格式之一,每两行为一条read信息。包含测序reads名和序列。通常在QC之后,以此格式保存数据。Pair-end测序:双端测序,两端均测序,随后合并成一条read。Single-end测序:单端测序,只测一端,即为一条read。质量评分:指的是一个碱基的错误概率的对数值,即质量评分越高,错误概率越小。QC:Qualitycontrol,即质量控制。低复杂度序列:即有大量简单重复的序列嵌合体:是PCR过程中,因为不同的模板混杂,错误产生的序列,这条序列并非真实存在。靶区域外序列:引物非特异性靶定产生的序列。OTU:operationaltaxonomicunit,操作单元分类。要了解样品测序中菌群信息,就需要对序列进行归类(cluster),通过归类,就可以根据序列的相似度分成很多分组,每一个分组就是一个OTU。RDP:RibosomalDatabaseProject。为了得到每个OTU对应的物种分类信息,采用RDPclassifier贝叶斯算法对97%相似度水平的OTU代表序列进行分类学分析,并在界门纲目科属种水平,统计各个样品的菌落组成。Node:网络图概念,每一个点就是一个node,在本项目OTU-network中,node有两种形式:样本和OTU。4/59
Edge:网络图概念,在OTU-network中,两点之间的连线就是edge。Alpha多样性:是指一个特定区域或生态系统内的多样性,经常用物种丰富度来度量。Beta多样性:不同生态系统之间多样性的比较,是物种组成沿环境梯度或者在群落间的变化率,用来表示生物种类对环境异质性的反应。PCA分析:pcoA分析(principalco-ordinatesanalysis)是一种研究数据相似性和差异性的可视化方法。进过一系列的计算之后,选择主要的,排在前几位的特征值,对样本之间的关系进行描述。RDA/CCA分析:是基于对应分析发展而来的一种排序方法,将对应分析与多远回归分析相结合,每一步计算均与环境因子回归,又称多元直接梯度分析。NMDS分析:非度量多维尺度分析,是一种将多维空间的研究对象简化到低维空间进行定位,分析和归类,同时又保留对象间原始关系的数据分析方法。其特点是根据样品中包含的物种信息,以点的形式反映在多维空间上,而对不同样品间的差异程度,则是通过点与点的距离体现的,最终获得样品的空间定位点图。滑窗法:检测一个窗口内的碱基质量值,如果满足条件则向前移动一个单位继续检测,如果不满足条件即做删除处理,随后继续移动到下一个单位进行检测,直到检测完所有的数据。RDP分类阈值:即分类可信度,在RDPclassifier中,使用bootstrapping方法估计分类的可信度。当可信度设置为≥80%时,V3、V4区的序列可以正确分配到属的概率分别是98.1%和95.7%,满足分析需要。[22]5/59
2.本项目使用软件与数据库:2.1软件:Prinseq[1]:http://prinseq.sourceforge.net/版本0.20.4FLASH[2]:http://sourceforge.net/projects/flashpage/版本1.2.3Mothur[3]:http://mothur.org/版本1.30.1Uclust[4]:http://www.drive5.com/uclust/downloads1_1_579.html版本1.1.579Cytoscape:http://cytoscape.org/版本3.2Qiime[5]:http://qiime.org/R:http://www.r-project.org/版本3.2Muscle[6]:http://www.drive5.com/muscle版本3.8.31MEGAN[7]:http://ab.inf.uni-tuebingen.de/software/megan/,版本5.7.1RDPclassifier[8]:http://rdp.cme.msu.edu/Fasttree[21]:http://www.microbesonline.org/fasttree/,版本2.1.3R包:vegan、ape、scatterplot3D、VennDiagram、gplots、pheatmap。2.2数据库RDPclassifier数据库,16s,fungal28s:http://rdp.cme.msu.edu/misc/resources.jspSilva[9]数据库,16s,18s:http://www.arb-silva.de/Unite[10]数据库its:http://www.mothur.org/wiki/UNITE_ITS_database6/59
3.实验流程简介对提取到的基因组DNA进行琼脂糖电泳检测,查看基因组DNA的完整性与浓度。利用Qubit2.0DNA检测试剂盒对基因组DNA精确定量,以确定PCR反应应加入的DNA量。PCR所用的引物已经融合了Miseq测序平台的通用引物PCR结束后,对PCR产物进行琼脂糖电泳,采用生工琼脂糖回收试剂盒(cat:SK8131)对DNA进行回收。回收产物用Qubit2.0定量,根据测得的DNA浓度,将所有样品按照1:1的比例进行混合;混合后充分震荡均匀。该混合样品可用于后续的样品建库(加测序标签)与测序。4.分析流程7/59
5.项目分析内容6.流程说明1.数据处理1)通过barcode区分样品序列,并对各样本序列做QC。2)去除非靶区域序列及嵌合体。2.基于OTU聚类分析,将多条序列根据其序列之间的距离来对它们进行聚类,后根据序列之间的相似性作为域值分成操作分类单元(OTU)。1)在OTU聚类结果的基础上,获取每一个OTU聚类中的代表性序列,分别是长度最长的序列(length)和丰度最高的序列(abundance),所有序列(ALL),形成三份结果:OTU_length,OTU_abundance,OTU_ALL,并进行各类RDP分析。2)Alpha多样性分析,计算丰富度指数。计算5种物种多样性指数,衡量样本物种多样性。并制作所有样品这五种指数的盒装图。五种指数分别是:Chao指数8/59
Simpson指数ACE指数Shannon指数Coverage指数3)beta多样性分析,Beta多样性指标用来比较多组样本之间的差别度量,将代表性序列比对参考核心16SrDNA序列,根据多序列队列构建代表性序列为节点的进化树,利用Unifrac算法计算样本距离、样本聚类、样本PCA。3.基于物种分类分析,采用RDPclassifier将序列进行物种分类,对每个样本和每个物种单元分类进行序列丰度计算构建样本和物种分类单元序列丰度矩阵。1)样本间菌群丰度差异分析,根据物种分类单元和样本丰度矩阵,利用统计检验筛选样本组间的差异物种分类单元。2)MEGAN分析,反映的是在每一个层级上各样本菌群丰度。除了计算单样本菌群分度图,也会根据客户的分组,计算组内样本菌群分析比较图3)物种丰度图。基于物种分类分析,绘制物种分类条形图,物种丰度饼图,物种丰度热图,classifier分类图,单样本菌群丰度柱状图,菌群分度3D图,样本聚类与柱状图组合分析图。4.基于OTU聚类和RDP分类的共有分析1)PTCA/POCA分析,选择OTU分组结果中reads数目最多的三个OTU,RDP分析结果中reads数目最多的三个RDP种属结果,制作3D图,观察样本之间的关系。2)RDA/CCA分析,分析可以检测环境因子、样品、菌群三者之间的关系或者两两之间的关系。同时也进行NMDS分析和CCA分析。环境因子信息需要客户自行提供3)进化树分析,绘制所有菌群之间的进化树图,同时绘制OTU聚类结果中,reads数目最多的前50个OTU的代表序列(分别是丰度最大,长度最长的序列)的进化树图,并标注其所属的菌群信息。7.分析结果展示7.1数据预处理9/59
7.1.1方法说明测序数据质量控制经过如下3个步骤:①根据barcode序列区分样本并去除Barcode。文件保存为*.fasta和*.qual②去除短片段序列,短片段的定义是小于50bp。③去除低复杂度序列,采用的软件为prinseq。7.1.1.1提取样本与原始数据统计根据barcode序列区分样本,提取出的数据以标准的fastq格式保存。以双端测序(PE:paired-end)数据为例,每一个样本有R1.fastq和R2.fastq两个文件,分别代表5’->3’和3’->5’的测序结果。R1.fastq与R2.fastq中的文件行数是一致的,且根据readsname一一对应。FASTQ:Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。每条read包含4行信息。第一行以“@”开头,随后是序列标示和相关的描述信息,第三行以“+”开头,随后是序列描述信息或者什么都不加;),第二行为碱基序列,第四行是质量信息,与第二行中的碱基序列一一对应,根据评分体系不同每个字符的含义所表示的数字有所差别。例如:@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!""*((((***+))%%%++)(%%%%).1***-+*""))**55CCF>>>>>>CCCCCCC65质量评分:质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:PhredqualityscoresarelogarithmicallylinkedtoerrorprobabilitiesPhredQualityScoreProbabilityofincorrectbasecallBasecallaccuracy101in1090%201in10099%301in100099.9%401in1000099.99%10/59
对于每个碱基的质量编码标示,不同的软件采用不同的方案,本项目中使用的方案是,Phredqualityscore,值的范围从0到62对应的ASCII码从64到126,得分在0到40之间;7.1.1.2数据优化统计对于Miseq双端测序数据,首先需要根据PEreads之间overlap的关系,将成对的reads拼接成一条序列,随后根据barcode区分样品,并进行质量控制过滤。数据过滤的参数:1.首先将R1.fastq与R2.fastq拼接起来。拼接序列的overlap区域允许的最大错配比率是0.1,不符合要求的序列会被筛选。2.去除短片段序列,短片段的定义是50bp,融合后的reads在50bp长度以下的则去除。3.去除融合后的reads尾部质量值在20以下的碱基。设置10bp的端口,如果窗口内的平均质量值低于20,从窗口开始去除后端的碱基。4.随后再对低复杂度的序列进行过滤。拼接使用软件:FLASH。FLASH主要参数设置:-x0.1http://sourceforge.net/projects/flashpage/质量控制使用软件:Prinseq。Prinseq主要参数设置:-lc_methoddust-lc_threshold40-min_len50http://prinseq.sourceforge.net/7.1.2结果展示结果目录:1_data_for_analysis/Clean_read_len_distribution.pdf:QC之后序列长度大部分分布在400-600之间,平均长度均在440以上,各样本序列数均在500以上,满足基本分析要求。详细结果见图1.1。Raw_read_len_distribution.pdf:QC之前原始序列长度分布图。详细结果见图1.2Sample_infor.xls:QC之后序列统计总表。详细结果见表1.1。11/59
图1.1原始数据长度分布图说明:原始序列使用Flash融合后的序列长度,以及该长度reads数目。图1.2质控后序列长度分布图说明:质控后的序列长度为去除barcode、两端primer、以及部分低质量序列的统计结果。12/59
表1.1各样本数据信息统计说明:QC之后序列统计总表。Group:样本的分组信息。Sample_name:样本名。Barcode:区分样本使用的barcode信息Raw_num:原始reads数目。Mean_len:原始序列的平均长度。Clean_num:QC之后剩余reads数目。Mean_len:QC之后序列平均长度7.2去除嵌合体及靶区域外序列7.2.1方法说明去除预处理后序列中非扩增区域序列,而后对序列进行测序错误校正,校正用到的软件为mothur中的pre.cluster,最后采用chimeras.uchime去除序列中的嵌合体。Pre.cluster:软件使用的算法叫做pseudo-singlelinkage。其算法基本的原理是,丰度越高的序列越容易产生一些测序错误,所以该算法根据序列的丰度排序,然后遍历产生的序列列表,根据设置的一些阀值,从中寻找丰度较低的序列,随后认为这些丰度较低的序列是丰度较高序列产生的测序错误。Chimeras.uchime:在给定的reference下,去除序列中的嵌合体。使用软件:Mothur。http://mothur.org/7.2.2结果展示结果目录:2_filter_chimeras/filter_chimeras_result.xls:去除嵌合体与靶区域外序列统计表,结果见表2.1。表2.1处理后结果统计表13/59
说明:上表第一列为样本名,第二列为处理之前序列总数,第三列为非把区域序列,第四列为嵌合体序列,第五列为处理后剩余序列。7.3操作分类单元(OTU)分类7.3.1方法说明将多条序列按其序列间的距离对它们进行聚类,后根据序列之间的相似性作为域值分成操作分类单元(OTU),通常域值的序列相似性定为0.97,操作分类单元被认为可能属于属,域值的序列相似性定为0.99被认为可能属于种。OTU聚类采用的软件为uclust,uclust首先筛选出序列中最长的reads最为种子序列,找出所有与该序列相似在阈值范围内的序列把其归为一个类,而后依次做此步,直到所有序列均聚好类,每一个类作为一个OTU。在OTU聚类结果的基础上,获取每一个OTU聚类中的代表性序列,分别是长度最长的序列(length)和丰度最高的序列(abundance),所有序列(ALL),形成三份结果:OTU_length,OTU_abundance,OTU_ALL,并进行各类OTU分析。接下来所有的展示,均使用OTU_ALL中的结果。Uclust参考网址:http://www.drive5.com/uclust/downloads1_1_579.html7.3.2结果展示结果总目录:4_OTU/7.3.2.1OTU网络聚类图7.3.2.1.1分析方法网络分析通常用来展示和分析样本之间OTU的分布情况。可以突出样本之间的相似和不同,对于大型复杂的数据来说是一种非常有效的方式。此分析根据样本之间共有的OTU生成聚类,即共有的OTU越多,样本之间的关系越近。在网络图中,有两种节点(node),14/59
一种是OTU-node,一种是sample-node。如果一个OTU在一个样本中出现的话,那么这个样本的sample-node与这个OTU-node之间就会有一条连线,这条连线就叫做edge。随后可以通过对点和线的处理,勾勒出整个OTU-network的样貌。使用软件:QIIME与Cytoscape7.3.2.1.2结果说明结果目录:cytoscape_windows/ALL_no_cut_OTU_network/:制作OTU网络聚类图原始数据ALL_no_cut_OTU_network.pdf:OTU-network图图3.1OTU-network图(选做,样本数太多不可做)说明:OTU-network图是从空间上展示不同样本间共有的OTU及特有的OTU,该图可从OTU层面上反应出样本间的异同。图中不同颜色代表不同样本,小白点表示OTU,白点的大小表示该OTU下面reads数,白点越大表示该OTU分配到的reads目越多。15/59
7.3.2.2OTUVENN分析图7.3.2.2.1分析方法VENN[11]图可以用来统计样本中共有的和独有的OTU的数目,直观的展现出环境中样品之间的异同。软件:mothur以及R语言程序包”VennDiagram”。7.3.2.2.2结果说明结果目录:VENN/需要注意的是:当样本数目为5个时,生成的VENN图格式为PDF格式,当样本数目为不足5个时,生成的VENN图格式为SVG格式。当样本数目大于5个时,不绘制VENN图。ALL_no_cut_venn5_*.pdf:五样本venn分析图,见图3.216/59
7.3.2.3OTU数目与聚类similarity值关系图7.3.2.3.1分析方法为了获取最佳similarity值设置,绘制了OTU数目变化与uclust参数similarity值之间的关系图。从中选择最佳的similarity值进行OTU和RDP分析。软件:uclust与R7.3.2.3.2结果说明结果目录:gradient/gradient_plot.pdf:OTU数目与聚类similarity值关系图图3.3OTU数目与聚类similarity值关系图说明:展示了uclust参数similarity值(0.86–0.99)与OTU数目之间的关系。红字标示的是本次程序使用的similarity值。7.4赋予物种分类单元7.4.1方法说明对处理后序列进行物种分类,采用的软件为RDPclassifier,RDPclassifier是基于17/59
Bergey"staxonomy,采用NaïveBayesianassignment算法对每条序列在genus水平上计算其分配到此rank中的概率值,一般概率值大于0.8,即RDP分类阈值。则说明此分类结果可信(测序片段长度<250时可适当调低此值到0.5,如只测V3、V6、V4区)。Bergey"staxonomy分为6层,它们依次为域(domain)、门(phylum)、纲(class)、目(order)、科(family)、属(genus)。同时,基于OTU聚类的结果,获取每一个OTU聚类的代表性序列,分别是长度最长序列(length)和丰度最大的序列(abundance),所有的序列(ALL)形成三份结果,并进行各类RDP分析:OTU_ALL:使用OTU聚类结果全部序列进行计算。OTU_length:使用OTU聚类结果中长度最长的代表性序列进行计算。OTU_abundance:使用OTU聚类结果中丰度最高的代表性序列进行计算。接下来所有的展示,均使用OTU_ALL中的数据,phylum水平进行展示。7.4.2结果展示结果总目录:6_Taxonomic_Classification/7.4.2.1各样本主要rankreads数目统计表7.4.2.1.1分析方法根据分类学分析结果,可以得知样品在各个分类水平上的分类学情况。在以下的统计结果中,包含了以下的信息1.样本中含有什么菌群。2.样本中菌群的reads数目,也就是菌群的丰度值。7.4.2.1.2结果展示结果目录:plot_raw_file/ALL_ALL_sample_ALL_*.xls:各样本主要rankreads数目18/59
表3.1phylum水平上各样本主要rankreads数目表3.1说明:上表中第一列表示taxonomy名字,后面每两列分别为样本中分类到该taxonomy中的reads数及占样本总reads数比例。7.4.2.2各样本菌群分布条形图7.4.2.2.1分析方法根据分类学分析结果,需要直观的观测样品在不同分类水平的菌群结构,并观察样本与样本之间,分组与分组之间的菌群结构。因此绘制了菌群分布条形图和饼图。7.4.2.2.2结果展示结果目录:barplot/ALL_distribution_of_ALL_*.pdf:各样本菌群分布图,同时:ALL_groupmerge_distribution_of_ALL_*.pdf:组与组之间菌群分布图.ALL_group1_distribution_of_ALL_*.pdf:group1分组内菌群分布图。19/59
图4.1phylum水平所有样本菌群分布图图4.1说明:上图中横坐标代表样本,纵坐标为丰度,不同颜色表示不同菌群,其中灰色为unclassified序列,即未分类序列。图例根据菌群在所有样本中总体reads从大到小进行排布。同时为了显示效果更好,将丰度极低的部分合并为OTHER显示在图上。7.4.2.3样本物种丰度饼图结果目录:pie_sample/ALL_*_ALL_*_pie.pdf:样本物种丰度饼图,同时:ALL_group1_ALL_*_pie.pdf:group1分组内物种丰度饼图。20/59
图4.2说明:菌落信息与对应的barplot条形图一致,同时为了更好显示,将丰度极低的部分合并成other显示在图上。7.4.2.4物种丰度热图7.4.2.4.1分析方法Heatmap[12]可以用颜色变化来反映菌群的丰度信息,可以直观的将菌群丰度值用定义的颜色深浅表示出来。同时将样品以及菌群信息进行聚类并重新排布,将聚类之后的结果显示在heatmap中。因此可以很好的反映各分类水平上菌群组成的异同。同时提供两种颜色热图可选,黑红色与彩虹色。使用软件:R语言包”gplots”7.4.2.4.2结果展示结果目录:heatmap/ALL_heatmap_ALL_*.pdf:genus水平物种丰度热图,同时:ALL_group1_heatmap_ALL_*.pdf:group1分组内物种丰度热图。ALL_groupmerge_heatmap_ALL_*.pdf:分组与分组之间物种丰度热图。图4.3phylum水平物种丰度热图21/59
说明:物种丰度热图,用物种丰度矩阵绘制,图中每一列代表一个样本,行代表菌群,颜色块代表相对物种丰度值,颜色越红表示相对丰度越高,颜色越蓝反之。另外热图对样本做了聚类,样本菌群分布越类似则样本距离越近,在图上方聚类树中的位置越靠近。图左:蓝红图,图右:彩虹图7.4.2.5classifier分类图7.4.2.5.1分析说明根据分类学分析结果,可以直观的比较样本之间菌群的分布情况。样本各水平未分类的序列的占比是一个重要的参考指标。通过统计不同水平下每个样本中unclassifier占比,绘制成线状图和柱状图。使用软件:R。7.4.2.5.2结果展示结果目录:classifier_plot/22/59
ALL_ALL_unclassifier_lines.pdf:所有水平classifier分类情况线状图ALL_ALL_unclassified_num.pdf:所有水平classifier分类情况柱状图ALL_ALL_groupmerge_unclassifier_lines.pdf:组与组之间classifier分类线状图ALL_ALL_groupmerge_unclassified_num.pdf:组与组之间classifier分类柱状图ALL_ALL_group1_unclassifier_lines.pdf:分组内classifier分类线状图ALL_ALL_group1_unclassified_num.pdf:分组内classifier分类柱状图图4.4所有水平classifier分类情况线状图图4.5所有水平classifier分类情况柱状图说明:图4.6:门纲目科属水平下,样本RDP分类中unclassified分类的百分比水平变化情况线状图。相同的分组用同一种线型表示。不同的样本使用不同的颜色表示。可以直观的23/59
看到不同样本,不同分组之间unclassified水平变化情况。图4.6:门纲目科属水平下,样本RDP分类中unclassified分类的readsnum变化情况柱状图。7.4.2.6样本菌群丰度柱状图7.4.2.6.1分析方法单个样本中菌群的丰度排序情况图。将所有样本菌群的丰度相加,得到前50个丰度最大的菌群。展示所有样本中这50个菌群的丰度分布情况。按照总体菌群丰度从大到小的顺序从左到右排列,如果不足50个菌群则全部展示。使用软件:R7.4.2.6.2结果展示结果目录:barplot_sample/ALL_no_cut_*_ALL_*_barplot_sample.pdf:单样本菌群丰度柱状图,同时:ALL_no_cut_group1_ALL_*_barplot_sample.pdf:分组的菌群丰度柱状图。说明:genus水平下,样本RDP分类中丰度占比最高的前50个菌群的分布情况,并按照总体丰度从大到小排序。总体丰度指的是,在所有样本中菌群readsnum的总值。如果菌群不足50个,则全取。24/59
7.4.2.7菌群丰度3D柱状图7.4.2.7.1分析方法菌群丰度3D图可以更立体的观察所有样本中菌群的分布情况。菌群的分布顺序是按照菌群所属门水平排序的。X轴上方的标签代表该菌落的门水平。任意一个样本中的丰度超过阀值,则会用箭头特别的标记出这个菌落的名字。使用软件:R语言程序包”scatterplot3D”7.4.2.7.2结果展示结果目录:3D_map/ALL_ALL_*_3d_bar_plot.pdf:单分组菌群丰度3D柱状图,同时在有多个分组的情况下:ALL_ALL_groupmerge_*_3d_bar_plot.pdf:分组之间菌群丰度3D柱状图ALL_ALL_group1_*_3d_bar_plot.pdf:group1分组的菌群丰度3D柱状图图4.7样本在genus水平下菌群丰度3D柱状图25/59
说明:所有样本在genus水平下的菌群丰度3D柱状图。X轴代表菌落,Y轴代表丰度,Z轴代表样本。X轴上方的标签代表该菌落的门水平,X轴菌落的顺序是根据门水平进行排列。当菌落的丰度水平在任意一个样本中超过阀值,会用箭头将此菌落标记出来。7.4.2.8水平样品聚类与柱状图组合分析图结果目录:Taxonomy/CLUSTER_BAR/只有RDP分类中绘制此图。ALL_*_*_cluster_bar.pdf:水平样品聚类与柱状图组合分析图,另外:ALL_group1_*_*_cluster_bar.pdf:分组水平样品聚类与柱状图组合分析图图4.8phylum水平样品聚类与柱状图组合分析图说明:图分为左、中、右三个部分。图左:基于Bray-Curtis指数的聚类图。图中:根据聚类顺序排序的菌群丰度条形图。图右:样色与菌群的图示。7.5Alpha多样性分析26/59
7.5.1方法说明计算Alpha多样性指标,包括丰富度指数(richness)、香农指数(ShannonIndex)、ACE指数、Chao1指数、Coverage,Simpson等。丰富度指数用于衡量单个样本中物种种类个数,实际通过操作分类单元的个数来计算,香农指数衡量群落的异质性,实际公式H=-∑Pi*lnPi来计算,其中Pi为各种群物种数与样本总物种比值,稀疏分析图[13]是从样本中随机抽取序列数为横坐标。Alpha多样分析采用的是mothur,相关网址为:http://www.mothur.org/。其它四个指数介绍如下:Chao:用chao1算法估计群落中含OTU数目的指数,chao1在生态学中常用来估计物种总数,由Chao(1984)最早提出。计算公式如下:其中,Schao1=估计的OTU数;Sobs=实际OTU数;N1=只有一条序列的OTU数目(如"singletons");N2=只有两条序列的OTU数目(如"doubletons")。Ace:用来估计群落中含有OTU数目的指数,由Chao提出,是生态学中估计物种总数的常用指数之一,与ChaoI的算法不同。计算公式如下:其中ni=含有i条序列的OTU数目;Srare=含有“abund”条序列或者少于“abund”的OTU数目;Sabund=多于“abund”条序列的OTU数目;27/59
abund=“优势”OTU的阈值,默认为10。Coverage:是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为:其中,n1=只含有一条序列的OTU的数目;N=抽样中出现的总的序列数目。Simpson:用来估算样品中微生物多样性指数之一,由EdwardHughSimpson(1949)提出,在生态学中常常用来定量描述一个区域的生物多样性。即Simpson指数越大,说明群落多样性越低=观测到的OTU数目=含有i条序列的OTU数目=所有序列数目7.5.2结果展示结果总目录:5_alpha_index/7.5.2.1稀疏性曲线(Rarefractioncurve)结果目录:Rarefaction/ALL_no_cut_*_rarefaction_plot.pdf:稀疏分析图28/59
ALL_no_cut_*_rarefaction_result.xls:稀疏曲线分析统计表,同时:ALL_no_cut_group1_*_rarefaction.pdf:不同分组的稀疏曲线分析图图5.1丰富度稀疏分析图图5.2香农指数稀疏分析图29/59
图5.3Simpson指数稀疏分析图说明:图5.1丰富度稀疏分析图是以样本中随机抽取序列数为横坐标,相应的OTU数目为纵坐标,每条曲线是一个样本。图5.2香农指数稀疏分析图是以样本中随机抽取序列数为横坐标,相应的香农指数为纵坐标所得,每条曲线是一个样本。图5.3Simpson指数稀疏分析图是以样本中随机抽取序列数为横坐标,相应的Simpson指数为纵坐标所得,每条曲线是一个样本。表5.1各样本Alpha多样性统计表说明:Sample_ID:样本名称。Seq_num:样本的reads数目。OTU_num:样本形成的OTU数目。接下来5列分别是5种指数的数值30/59
7.5.2.2组间指数盒状图7.5.2.2.1分析方法基于表5.1,可以将各分组中样本的指数值做盒状图,观察其指数的离散情况。值越小离散程度越小说明该分组中的样品越稳定使用软件:R7.5.2.2.2结果展示结果目录:5_alpha_index/Alpha_diversity_*.pdf:组间指数盒状图图5.4分组间Simpson指数盒状图说明:每一个分组下的所有样本的Simpson指数制作盒装图,直观的看出所有分组的Simpson指数分布情况。31/59
7.5.2.3OTU相对丰度曲线分析图7.5.2.3.1分析方法Rank-abundance[14]曲线是分析多样性的方式之一。用来表示样本之间丰度的相对关系,反映OTUreads数目的分布情况。对于单个样本来说,OTU聚类结果中总体丰度最高的OTU的位置是1,总体丰度第二高的OTU位置是2,以此类推,并绘制成一条曲线。Rank-abundance曲线可用来解释物种丰度和物种均匀度。物种的丰度越高,曲线在横轴上的范围越大;曲线的形状(平滑程度)反映了样品中物种的分布均匀度,曲线越平缓,物种分布越均匀。同时为了去掉一些极低丰度的OTU,使用了95%累积计算的方法。即从OTURank第一位开始,累计丰度值,当丰度值超过样本丰度总值的95%时即停止。剩下的OTURank则不再显示。因此能更好的发现物种丰度和均匀度的规律。使用软件:R7.5.2.3.2结果展示结果目录:Rank_abundance/ALL_no_cut_*_rank_abundance_abosolute_with_R.pdf:使用R语言绘制的相对丰度曲线图,纵坐标为reads数目。ALL_no_cut_*_rank_abundance_abosolute_zoom_with_R.pdf:使用R语言绘制的相对丰度曲线图,纵坐标为reads数目。使用95%累积计算的方法,不显示5%reads特别低的OTUALL_no_cut_*_rank_abundance_with_R.pdf:使用R语言绘制的相对丰度曲线图,纵坐标为reads占比。ALL_no_cut_*_rank_abundance_qiime.pdf:使用QIIME绘制的相对丰度曲线图同时:ALL_no_cut_groupmerge_rank_abundance*.pdf:组与组之间的相对丰度曲线图ALL_no_cut_group1_rank_abundance*.pdf:分组内的相对丰度曲线图32/59
图5.5OTU相对丰度曲线分析说明:OTU相对丰度曲线分析,用来表示样本之间丰度的相对关系,反映OTUreads数目的分布情况。X轴:OTURANK.总体丰度最高的OTU的位置是1,总体丰度第二高的OTU位置是2,以此类推。Y轴:样本的丰度数值。7.5.2.4物种累积曲线图7.5.2.4.1分析方法物种累积曲线图是用于描述随着样品量的加大物种增加的情况,是调查样本的物种组成和预测样品中物种丰度的有效工具,被广泛的用于样品量是否充分的判断以及物种丰富度的估计使用软件:R语言程序包”vegan”7.5.2.4.2结果展示结果目录:5_alpha_index/*specaccum.pdf:物种累积曲线图33/59
图5.6物种累积曲线图说明:物种累积曲线图,X轴代表样本数目,Y轴代表抽样后的OTU数目。结果反映,在持续抽样的情况下,新的OTU增加的速率。如果曲线表现为急速上升(斜率大)则说明有大量物种发现,反之平缓上升(斜率小)则说明此环境内OTU数目并不随着样品量的增加而增加,即环境内的菌群种类趋于完整。因此,如果曲线表现为急速上升,则说明样品量不足,如果曲线表现为平缓上升,则说明样品量充分(默认样品数目大于10个时分析)7.6Beta多样性分析7.6.1方法说明Beta多样性指标是用来比较多组样本之间的差别度量,分析中通过三个方面来衡量样本间Beta多样性,分别为本样本距离计算、样本聚类、样本PCA分析。该三类分析均是基于Unifracmetric[15],Unifracmetric是一种基于系统发育树的计算值,可很好的用于衡量样本间物种组成的相似度。分析中首先将OTU种子序列比对到Greengene核心16SrDNA序列中,根据多序列队列构建以种子序列为节点的系统发育树,而后通过进化树计算Unifracmetric,Unifracmetric是通过计算进化树中不同环境样本间Uniquebranch长度总和获得。Unifracmetric值在0-1之间,值越小说明样本间相似度越高。计算Unifrac值时有两种方式,一种为未加权重方式,另外一种为加权重计算方式,区别如下:unweightedUnifrac:未加权重计算方式,计算时仅考虑样本中是否有无某OUT,等同于只评估样本间物种的差异,不考虑物种丰度的差异。34/59
Weightedunifrac:加权重的计算方式,计算不仅评估样本间物种的差异,并且加入了物种丰度(即OTU分配到的reads数及样本总reads)作为权重,一般最终结果采用分析结果。7.6.2结果展示结果总目录:7_beta_diversity/Weighted/Unweighted/7.6.2.1样本距离heatmap图7.6.2.1.1分析方法距离热图展现了样本与样本之间的距离关系,也就是表明了样本与样本之间的相似程度,距离之越小则表明样本之间的相似度越高。因此距离热图可以很好的衡量样本间物种组成的相似度。使用软件:R语言程序包”pheatmap”7.6.2.1.2结果展示ALL_no_cut_*_unifrac_distance_matrix.xls_heatmap.pdf:样本距离热图35/59
图6.1样本距离heatmap图说明:距离热图,采用样本间unifrac距离矩阵绘制,颜色块代表距离值,颜色越红表示样本间距离越近,相似度越高,越是越蓝则距离越远。热图中对样本间做了聚类,通过聚类树亦可看出样本间的距离关系。7.6.2.2样本聚类图7.6.2.2.1分析方法利用树枝结构描述和比较多个样品间的相似性和差异关系。基于系统发育树的计算值生成的树状图,可很好的用于衡量样本间物种组成的相似度。目前提供两种计算方法的树状图:*_unifrac_cluster.pdf:基于unifrac距离计算的树状图*_unifrac_cluster_sample_tree:基于Fasttree软件的近似最大似然法的算法构建的树状图使用软件:FastTree7.6.2.2.2结果展示ALL_no_cut_*_unifrac_cluster.pdf:样本聚类图36/59
图6.2样本聚类图(距离值聚类)说明:样本聚类树图,分支每一个点代表一个样本,长度值代表样本间距离值,样本相似度越高,则在树中距离越近。相同的group使用同样的颜色代表7.6.2.3PCA分析7.6.2.3.1分析方法PcoA分析(principalco-ordinatesanalysis)[16]是一种研究数据相似性和差异性的可视化方法。进过一系列的计算之后,选择主要的,排在前几位的特征值,对样本之间的关系进行描述。7.6.2.3.2结果展示ALL_no_cut_*_unifrac_pcoa.xls_3d_PCA.pdf:PCA分析3D图ALL_no_cut_*_unifrac_pcoa.xls_*vs*_PCA.pdf:PCA分析2D图37/59
图6.3PCA分析3dplot说明:PCA三维散点图,图中不同颜色的点代表不同group中的样本,样本间相似度越高则在图中越聚集,反之样本间相似度越低则在空间距离越远。图6.4PCA分析2dplot(P1VSP2)说明:PCA二维散点图,图中不同颜色的点代表不同group中的样本,样本间相似度越高则在图中越聚集,反之样本间相似度越低则在空间距离越远。38/59
7.6.2.4样本距离盒状图7.6.2.4.1分析方法对不同分组之间的距离进行四分位值计算,也就是箱形图的计算,比较不同的分组之间距离分布的差异。箱形图[17]:利用数据计算5个统计量:最小值,第一四分位数,中位数,第二四分位数,最大值。可以粗略的看出数据的离散程度和分布情况。7.6.2.4.2结果展示ALL_no_cut_*_distance_boxplot.pdf:分组距离盒状图图6.5样本距离盒状图说明:样本相对于其他样本的距离制作出每一个样本的距离盒状图。因此盒状图的离散程度越小,值越小,代表该样本与其他的样本越相似。7.7样本间菌群丰度差异分析39/59
7.7.1方法说明基于RDPclassifier分类结果,计算在不同水平上各rank的丰度,比较样本或组间丰度差异,找出样本或组间丰度存在显著差异的菌群,一般筛选条件为P<=0.05或者Q值<=0.05,Q值为FDR值。若样本间两两比较采用的检验方法为fisher精确检验,若为组间比较,采用的为Tstatisticspermutationtest,首先计算出各个样本在不同rank中的丰度比例(该rank下reads数/总reads数)通过对样本丰度矩阵做指定次数的随机permutation,计算每次permutation的T值,统计T值大于原始T值的概率,最后做Multipletestcorrection,采用的方法为FDR。7.7.2结果展示各样本对比较结果见文件夹4_dif_analysis/7.8PTCA/POCA分析7.8.1方法说明基于OUT聚类与RDPclassifier分类的结果,截取其中总体丰度最高的三个OTU聚类以及菌群,以这三个结果的readsnum数目作为分析的三个维度,绘制3D图以及2D图,用于展示样本之间的关系。7.8.2结果展示结果目录:8_PTCA_POCA/OTU/:OTU聚类结果Taxonomy/:RDPclassifier结果40/59
图7.1OTU聚类PTCA/POCA分析3D图图7.2OTU聚类PTCA/POCA分析P1VP2图说明:xyz轴的刻度是百分比,即该OTUreads数目在该样品所有OTU聚类reads数目中的占比。比如OTU800的readsnum数目是1000,样本BC10中所有OTU聚类的reads数目是10000,则BC10在OTU800维度上的数值是0.1。7.9RDA/CCA分析41/59
7.9.1方法说明RDA或者CCA[18]是基于对应分析发展而来的一种排序方法,将对应分析与多远回归分析相结合,每一步计算均与环境因子回归,又称多元直接梯度分析。此分析主要是用来反映菌群与环境因子之间的关系。分析可以检测环境因子,样品,菌群三者之间的关系或者两两之间的关系。NMDS非度量多维尺度分析[19],是一种将多维空间的研究对象简化到低维空间进行定位,分析和归类,同时又保留对象间原始关系的数据分析方法。其特点是根据样品中包含的物种信息,以点的形式反映在多维空间上,而对不同样品间的差异程度,则是通过点与点的距离体现的,最终获得样品的空间定位点图。Bray-Curtis[20]差异指数:用于绘制样本之间的树状图。7.9.2结果展示结果总目录:13_PCA_RDA_CCA_NMDS_analysis/OTU/:OTU聚类结果分析Taxonomy/:RDPclassifier聚类结果分析7.9.2.1RDA分析结果目录:RDA/&&RDA_3D/ALL_*_*_rda_3d.pdf:RDA3D图ALL_*_*_rda.pdf:RDA2D图同时,ALL_group1_*_*_rda.pdf:分组的RDA2D图ALL_group1_*_*_rda_3D.pdf:分组的RDA3D图42/59
图8.1OTU聚类RDA分析3D图图8.2OTU聚类RDA分析与环境因子3D图43/59
图8.3OTU聚类RDA分析2D图图8.4OTU聚类RDA分析与环境因子2D图说明:OTU聚类RDA分析的3D图和2D图,以及对应6个环境因子的RDA分析图。箭头标示环境因子,这6个环境因子分别是:HCO3,CO2,Ca,Tempature,Oxygen,nitrogen。箭头表明了环境因子在平面上的相对位置,箭头越长,说明其作用越大。样本-中心连线与箭头之间的夹角,代表了样本与环境因子之间的相关关系(锐角,正相关;钝角,负相关;直角,44/59
不相关)。样本(或者菌群、OTU)对环境因子箭头的连线做投影,投影点距离箭头越近,说明该环境因子对样本产生的影响越大。环境因子需要客户自行提供。7.9.2.2NMDS分析结果目录:NMDS/&&NMDS_TREE/ALL_*_*_NMDS.pdf:NMDS图ALL_*_*_NMDS_tree.pdf:NMDS聚类树图,另外ALL_group1_*_*_NMDS.pdf:分组NMDS图ALL_group1_*_*_NMDS_tree.pdf:分组NMDS聚类树图图8.5OTU聚类NMDS分析2D图45/59
图8.6OTU聚类树状图(Bray-Curtis算法)说明:图8.5是OTU聚类的NMDS分析2D图,表明的是OTU与样本之间的关系。图8.6是基于Bray-Curtis指数计算的样本之间的树图7.9.2.3CCA分析结果目录CCA/&&CCA_3D/ALL_*_*_cca_3d.pdf:CCA3D图ALL_*_*_cca.pdf:CCA2D图,另外:ALL_group1_*_*_cca_3d.pdf:分组CCA3D图ALL_group1_*_*_cca_3d.pdf:分组CCA2D图46/59
图8.7OTU聚类CCA分析与环境因子3D图图8.8OTU聚类CCA分析与环境因子2D图说明:OTU聚类CCA分析与环境因子的3D图与2D图。这6个环境因子分别是:HCO3,CO2,Ca,Tempature,Oxygen,nitrogen。箭头表明了环境因子在平面上的相对位置,箭头越长,说明其作用越大。样本-中心连线与箭头之间的夹角,代表了样本与环境因子之间的相关关系(锐角,正相关;钝角,负相关;直角,不相关)。样本(或者菌群、OTU)对环境因子箭头的连线做投影,投影点距离箭头越近,说明该环境因子对样本产生的影响越大。环境因子需要客户自行提供。47/59
7.10进化树分析7.10.1方法说明通过某一分类水平上序列碱基之间的差异构建进化树并分析,可以推断有关生物进化的发展过程,了解生物进化历史和机制。使用FastTree通过选择OTU或某一水平上分类信息对应的序列根据最大似然法构建进化树,再使用R语言作图绘制进化树。同时,选取OTU聚类结果中总体丰度最大的前50个OTU聚类的代表性序列:丰度最高和最长的序列,使用MUSCLE软件,构建进化树,并用R语言绘图目前,默认使用genus水平的信息绘制进化树图,其格式为Genus信息(OTU):如Tepidimicrobium(OTU3031)所有分类信息(OTU):如Bacteria;Firmicutes;Clostridia;Clostridiales;ClostridialesIncertaeSedisXI;Tissierella(OTU2441),分别表示界,门,纲,目,科,属,OTU7.10.2结果展示结果总目录:10_evolutionary_phylogenetic_tree/ALL_no_cut_*_first50_tree_all.pdf:前50个代表序列树状图(所有分类信息)ALL_no_cut_*_first50_tree_genus.circular.pdf:前50个代表序列圆形树图ALL_no_cut_*_first50_tree_genus.nocircular.pdf:前50个代表序列环状树图ALL_no_cut_*_first50_tree_genus.pdf:前50个代表序列树状图(genus分类信息)ALL_no_cut_*_tree_all.pdf:所有序列树状图(所有分类信息)ALL_no_cut_*_tree_genus.circular.pdf:所有序列圆形树图ALL_no_cut_*_tree_genus.nocircular.pdf:所有序列环状树图ALL_no_cut_*_tree_genus.pdf:所有序列树状图(genus分类信息)48/59
图9.1前50个丰度最大代表性序列标注genus水平信息的环状进化树图图9.2前50个丰度最大代表性序列genus水平进化树图49/59
说明:图9.1前50个代表性序列标注genus水平信息的环状进化树图,使用的是genus水平信息绘制。图9.2前50个代表性序列标注genus水平信息的树状图,使用的是genus水平信息绘制。7.11MEGAN分析7.11.1方法说明使用MEGAN软件,通过交互式搜索NCBI中的分类数据库信息,以树状图形式表现物种的丰度情况与菌落结构,反映微生物的组成情况。除了计算单样本菌群丰度图,也会根据客户的分组,计算组内样本菌群分析比较图7.11.2结果展示结果目录:9_Taxonomi_tree_comparation/ALL/:样本比较MEGAN图Single/:单样本MEGAN图ALL_main_MEGAN_*_*.pdf:所有样本MEGAN比较图ALL_no_cut_group1_main_MEGAN_*_*.pdf:组内样本MEGAN比较图图10.1门水平单样品MEGAN丰度图说明:每个节点处标示的英文代表该处在NCBI中的Taxonomy记录。英文后有两个数字,分别代表比对至该Taxonomy的序列条数,包含该Taxonomy以及所有下级Taxonomy的序列条数。50/59
图10.2门水平多样品MEGAN丰度比较图说明:图形左上角显示的是样本与对应的颜色。由于版面限制,不显示节点对应的序列条数。颜色代表了样本在此Taxonomy的分布情况。51/59
8.结果说明关于ALL_per_cut,ALL_num_cut,ALL_no_cut前缀的说明:根据客户的要求,可以选择去除低丰度的OTU聚类。可以选择两种方式:Per_cut:根据设定的百分数,删除低丰度百分之多少的OTU序列,之后的分析结果前缀均使用ALL_per_cut。Num_cut:根据设定的数目,删除指定数目的低丰度的OTU序列,之后的分析结果前缀均使用ALL_num_cut。如果不修改,则前缀设置为ALL_no_cut。1_data_for_analysis/原始数据结果文件夹1-1_raw_data/*.fastq原始fastq格式文件1-2_merge_data/merge.extendedFrags.fastq:融合后的fastq文件1-3_sample_raw_data/*.qual:各样本测序质量值文件*.fasta:各样本原始测序fasta格式文件*_raw_read_len_distribution.pdf:各分组的读长统计图1-4_QC_data/*.qual:QC之后各样本测序质量值文件*.fasta:QC之后各样本原始测序fasta格式文件*_raw_read_len_distribution.pdf:QC之后各分组的读长统计图Sample_data_infor.xls:质控之后统计统计文件clean_read_len_distribution.pdf:QC之后序列长度分布图2_filter_chimeras/去除嵌合体及非靶区域序列结果ALL_merge_precluster_uchime_uniq.fasta:去除嵌合体及非靶区域序列结果总文件*_precluster_uchime_uniq.fasta:去除嵌合体及非靶区域序列各样本文件52/59
filter_chimeras_result.xls:去除嵌合体及非靶区域后统计表3_other_commmunity_deletion/删除菌群信息之前原始数据的备份,只有当需要筛选菌群信息时,才会有此文件夹ALL_merge_precluster_uchime_uniq.fasta.classifierRDP分类结果备份ALL_merge_precluster_uchime_uniq.fasta去除嵌合体及非靶区域序列结果总文件备份4_OTU/OTU分析结果*OTU_count.xlsx:各样品OTU序列数统计结果*OTU_to_reads.xlsx:(OTU与序列一一对应结果)*OTU_count_add_taxonomy:OTU聚类结果与对应的丰度最高最长代表性序列统计结果gradient/选作项目。gradient_plot.pdf:OTU聚类中OTU数目与similarity参数的关系图、VENN/Venn5*.pdf:5样本OTUvenn分析图。只有当样本数目或者分组数目为5个时,才会有此文件。*.svg:1-4OTUvenn分析图,需用浏览器打开。只有当样本数目或者分组数目为小于5个时,才会有此文件。OTUNETWORK/:用于制作网络图的原始文件,选做项目。cytoscape_windows/*.pdf:使用cytoscape绘制的网络图,选做项目。5_Alpha_index/Alpha多样性分析结果Alpha_diversity_Simpson.pdf:样品分组之间的Simpson指数盒状图Alpha_diversity_shannon.pdf:样品分组之间的shannon指数盒状图Alpha_diversity_chao1.pdf:样品分组之间的chao1指数盒状图Alpha_diversity_ACE.pdf:样品分组之间的ACE指数盒状图Alpha_diversity_richness.pdf:样品分组之间的richness指数盒状图*_specaccum.pdf:物种累积分布图Rarefaction/richness_rarefaction_plot.pdf:丰富度稀疏曲线图Shannon_rarefaction_plot.pdf:香浓指数稀疏度曲线图53/59
ACE_rarefaction_plot.pdf:ACE指数稀疏度曲线图Chao1_rarefaction_plot.pdf:Chao指数稀疏曲线Simpson_rarefraction_plot.pdf:Simpson指数稀疏曲线All_Sample_alpha_diversity.xls:各指数汇总表*rarefaction_result.xls:稀疏曲线表Rank_abundance/*rank_abundance.pdf:使用qiime制作的rank_abundance图*rank_abundance_with_R.pdf:使用R制作的rank_abundance图,数值使用百分比表示*rank_abundance_abosolute_with_R.pdf:使用R制作的rank_abundance图,数值使用reads_num表示*rank_abundance_abosolute_zoom_with_R.pdf:使用R制作的rank_abundance累积图,在此图中展示reads_num较高的数据6_Taxonomic_Classification/classifier结果OTU_length_reads_classification/OTU_ALL_reads_classification/OTU_abundance_reads_classification/classifier_plot/所有样本classifier分布情况图3D_map/菌落丰度3D图reads2taxon/各序列ID对应genus水平分类结果pie_sample/物种丰度饼图histogram_sample/物种丰度非堆叠条形图,只有当样本数小于10个才会绘制heatmap/物种丰度热图barplot_sample/物种丰度条形图文件夹barplot/物种丰度堆叠条形图cluster_bar/聚类与柱状图组合分析图7_beta_diversity/beta多样性分析结果unweighted/unweightedunifrac计算结果weighted/Weightedunifrac计算结果54/59
weighted_unifrac_cluster:样本聚类结果weighted_unifrac_cluster.pdf:样本距离树状图weighted_unifrac_distance_matrix.xls:样本距离矩阵weighted_unifrac_distance_matrix.xls_heatmap.pdf:样本距离热图weighted_unifrac_pcoa.xls:pcoa分析结果*_3d_PCA.pdf:PCA分析三维图*_*vs*_PCA.pdf:PCA分析二维图*distance_boxplot.pdf:样本相对于其他样本的距离盒状图8_PTCA_POCAPTCA/POCA分析OTU/Taxonomy/*first_three_3d.pdf:PTCA/POCA3D图*first_three_2D_*_VS_*.pdf:PTCA/POCA2D图9_Taxonomi_tree_comparationMEGAN分析图ALL/分组MEGAN丰度比较图Single/单样品MEGAN丰度图10_evolutionary_phylogenetic_tree*tree_genus.pdf:标记OTU和genus水平菌群分类的树状图*tree_genus.nocircular.pdf标记OTU和genus水平菌群分类的环状图*tree_genus.circular.pdf标记OTU和genus水平菌群分类的球形图*tree_all.pdf标记OTU和所有水平菌群分类的树状图*first50_tree_genus.pdf前50个代表序列标记OTU和genus水平菌群分类的树状图*first50_tree_genus.nocircular.pdf前50个代表序列标记OTU和genus水平菌群分类的环状图*first50_tree_genus.circular.pdf前50个代表序列标记OTU和genus水平菌群分类的球形图*first50_tree_all.pdf前50个代表序列标记OTU和所有水平菌群分类的树状图11_dif_analysis/物种丰度差异分析结果,选作项目。*dif_AB.xlsx:两两样品差异比较文件55/59
*dif_AB_p0.05.xlsx:P值检验显著的差异统计13_PCA_RDA_CCA_NMDS_analysisOTU/Taxonomy/*rda_3d.pdf:RDA3D图*rda.pdf:RDA2D图*_NMDS_tree.pdf:NMDS2D图*_NMDS.pdf:NMDS树状图*cca_3d.pdf:CCA3D图*cca.pdf:CCA2D图56/59
9.参考文献[1]SchmiederRandEdwardsR:Qualitycontrolandpreprocessingofmetagenomicdatasets.Bioinformatics2011,27:863-864.[2]TanjaMagočandStevenL.Salzberg:FLASH:FastLengthAdjustmentofShortReadstoImproveGenomeAssembliesBioinformatics(2011)doi:10.1093/bioinformatics/btr507[3]Schloss,P.D.,etal.,Introducingmothur:Open-source,platform-independent,community-supportedsoftwarefordescribingandcomparingmicrobialcommunities.ApplEnvironMicrobiol,2009.75(23):7537-41.[4]Edgar,RC(2010)SearchandclusteringordersofmagnitudefasterthanBLAST,Bioinformatics26(19),2460-2461.[5]CaporasoJG,KuczynskiJ.etal.QIIMEallowsanalysisofhigh-throughputcommunitysequencingdata.NatureMethods7(5):335-336(2010).[6]Edgar,R.C.(2004)MUSCLE:multiplesequencealignmentwithhighaccuracyandhighthroughput.NucleicAcidsRes.32(5):1792-1797.[7]DanielHHuson,SuparnaMitra,NicoWeber,Hans-JoachimRuscheweyh,andStephanCSchuster(2011).IntegrativeanalysisofenvironmentalsequencesusingMEGAN4GenomeResearch,21:1552-1560.[8]Wang,Q,G.M.Garrity,J.M.Tiedje,andJ.R.Cole.2007.NaïveBayesianClassifierforRapidAssignmentofrRNASequencesintotheNewBacterialTaxonomy.ApplEnvironMicrobiol.73(16):5261-5267;doi:10.1128/AEM.00062-07[PMID:17586664][9]QuastC,PruesseE,YilmazP,GerkenJ,SchweerT,YarzaP,PepliesJ,GlöcknerFO.TheSILVAribosomalRNAgenedatabaseproject:improveddataprocessingandweb-basedtools.Nucl.AcidsRes.41(D1):D590-D596(2013).[10]UrmasKõljalg,R.HenrikNilsson,KessyAbarenkov,LehoTedersoo,etal.Towardsaunifiedparadigmforsequence-basedidentificationoffungi.MolecularEcology(2013)22,5271–5277DOI:10.1111/mec.1248157/59
[11]FoutsDE,SzpakowskiS,PurusheJ,TorralbaM,WatermanRC,etal.(2012)NextGenerationSequencingtoDefineProkaryoticandFungalDiversityintheBovineRumen.PLoSONE7(11):e48289.doi:10.1371/journal.pone.0048289.[12]ElieJami,AdiIsrael,etal.Exploringthebovinerumenbacterialcommunityfrombirthtoadulthood.TheISMEJournaladvanceonlinepublication,21February2013;doi:10.1038/ismej.2013.2[13]KatherineRAmato.etal.Habitatdegradationimpactsblackhowlermonkey(Alouattapigra)gastrointestinalmicrobiomes.TheISMEJournal(2013)7,1344–1353;doi:10.1038/ismej.[14]ScottTBates,JoseCClemente,etal.Globalbiogeographyofhighlydiverseprotistancommunitiesinsoil.TheISMEJournal(2013)7,652–659;doi:10.1038/ismej.2012.147.[15]TanyaYatsunenko,Federico,etal.Humangutmicrobiomeviewedacrossageandgeography.Nature486,222–227(14June2012)doi:10.1038.nature11053.[16]Xiao-TaoJiang,XinPeng,etal.IlluminaSequencingof16SrRNATagRevealedSpatialVariationsofBacterialCommunitiesinaMangroveWetland.MicrobEcol(2013)66:96–104.DOI10.1007/s00248-013-0238-8.[17]AbrahamssonT.R.,JakobssonH.E.,AnderssonA.F.,BjorkstenB.,EngstrandL.,JenmalmM.C.Lowdiversityofthegutmicrobiotaininfantswithatopiceczema.(2012)JournalofAllergyandClinicalImmunology,129(2).[18]SheikCS,MitchellTW,RizviFZ,RehmanY,FaisalM,etal.(2012)ExposureofSoilMicrobialCommunitiestoChromiumandArsenicAltersTheirDiversityandStructure.PLoSONE7(6):e40059.doi:10.1371/journal.pone.0040059.[19]MagaliNovalRivas,PhD,OliverT.Burton,etal.Amicrobitasignatureassociatedwithexperimentalfoodallergypromotesallergicsenitizationandanaphylaxis.TheJournalofAllergyandClinicalImmunology.Volume131,Issue1,Pages201-212,January2013.[20]LuoJ,ZhangJ,TanX,McDougaldD,ZhuangG,FaneAG,KjellebergS,CohenY,RiceSACharacterizationofthearchaealcommunityfoulingamembranebioreactor.JEnvironSci(China).2015Mar1;29:115-123.doi:10.1016/j.jes.2014.07.025.Epub2015Jan5.[21]PriceMN,DehalPS,ArkinAP(2010)FastTree2–ApproximatelyMaximum-LikelihoodTreesforLargeAlignments.PLoSONE5(3):e9490.doi:10.1371.journal.pone.0009490.58/59
[22]ClaessonMJ(1),O"SullivanO,WangQ,NikkiläJ,MarchesiJR,SmidtH,deVosWM,RossRP,O"ToolePW.Comparativeanalysisofpyrosequencingandaphylogeneticmicroarrayforexploringmicrobialcommunitystructuresinthehumandistalintestine.PLoSOne.2009Aug20;4(8):e6669.doi:10.1371/journal.pone.0006669.59/59'
您可能关注的文档
- 贩卖管理系统项目报告
- 台湾低温蒸馏锅国际科技合作与引进消化吸收再创新项目报告书
- 南阳市宛城区-南阳佳吉食品饮料有限公司年产100万吨绞股蓝饮料、植物蛋白食品饮料生产线项目报告表
- 同济 数据库 项目报告
- 声光控制楼道灯设计项目报告
- 柳州市潭中西路北侧保障性住房周边道路工程项目报告表
- 新港口码头建设项目报告
- 舒城县阙店乡万佛湖文化旅游-牡丹亭农业生态园项目报告
- 液压与气压传动三级项目报告-汽车起重机液压系统设计
- 万方发展:成都义幻医疗科技有限公司拟增资涉及的股东全部权益投资价值评估项目报告书
- 计算机实训项目报告二
- 花店管理系统项目报告
- 果汁店自主创业项目报告书
- 海航西安草堂科技产业配套园项目报告书
- 河北省衡水市衡水澜点房地产开发有限公司泰华雅清苑小区建设项目报告表zip
- 浦东新区发展可见光通信产业的投资项目报告书_draft
- 数控机床拆装与调试技术项目报告
- matlab三级项目报告-冷轧板带轧机板型预报模型及软件