注意:本教程假定您已经完成,成功安装QIIME 2。
本教程计划在完成《》之后练习。它旨在介绍一些新思想,并且是应用该文档中探索工具的一个练习。
本教程中使用的数据来自,详见《》。其中18岁以下患有自闭症和胃肠道疾病的儿童,分别通过自闭症诊断访谈修订版(ADI-R)和胃肠道症状评定量表(GSRS)测量,用粪便微生物移植治疗,试图减少他们的行为异常和胃肠道症状的严重程度。我们通过18周内他们的GSRS评分追踪了他们的微生物变化,包括父母的整体状况III(Parent Global Impressions,PGI-III)和儿童孤独症评定量表(CARS),以及他们胃肠道症状的严重程度。通过每周收集粪便拭子样本(用擦拭用过的卫生纸收集)和不太频繁的大便样本(收集全大便)来跟踪微生物群。在全部研究中,这是第一阶段的临床试验,旨在测试治疗的安全性,18个人接受了治疗,20个人作为对照。对照组未接受治疗,但监测肠道微生物群的正常时间变化。本研究还对治疗期间移植的粪便材料进行了测序。
本教程数据集是为本研究数据的一个子集。它包括五个接受治疗的个体和五个对照的数据。每个个体包括6至16个样本,包括每个个体的大便和粪便拭子样本,以及FMT治疗前后样本。移植的粪便材料也包括五个样本。
MiSeq测序批次(Run)中测序。如《人体各部位微生物组教程》所示,我们将使用执行初始质量控制并生成FeatureTable[Frequency]
和FeatureData[Sequence]
对象。然而,DADA2去噪过程只适用于一次单个测序批次,因此我们需要在每个测序批次的基础上运行该过程,然后合并结果。我们将完成这个初始步骤,然后提出一些可以作为练习来回答的问题。
详者注:此实例需要一些基础知识,要求完成学习本系列文章前两篇内容:和。
视频有广告,清晰度不够高吗?在微信订阅号“meta-genome”后台回复“qiime2”获得1080p视频和测试数据下载链接。
本实验研究自闭症且胃肠道功能紊乱患者,采用粪便菌群移植方法,来降低患者的行为异常和肠道紊乱。监测移植后18个月范围内肠道菌群的变化,上图为。
对于上文提到了conda/docker两种常用安装方法,我们每次在分析数据前,需要打开工作环境,根据情况选择对应的打开方式。
# 定义工作目录变量,方便以后多次使用
# 进入工作目录,是不是很简介,这样无论你在什么位置就可以快速回到项目文件夹
# 这时我们的命令行前面出现 (qiime2-2020.11) 表示成功进入工作环境
# 方法3. 如果是docker安装的请运行如下命令,默认加载当前目录至/data目录
注意:QIIME 2 官方测试数据均保存在Google服务器上,国内下载比较困难。,以下Google链接全部替换为国内备份链接*。
下载元数据,即描述样本的数据,也称实验设计。通过上述方法下载请跳过。
接下来,下载我们将在本分析中使用的拆分好的混合样本序列。要了解如何从fastq格式的序列数据中开始QIIME 2分析,请参阅。我们需要下载两组样本拆分好的序列,每个序列文件对应一个序列测序批次。
在本教程中,我们将使用完整序列数据的一个小子集,以便命令能够快速运行。您可以选择1%的序列子集或10%的序列子集。如果您只是试图获得准备和组合多个数据序列运行的经验,那么您可以使用1%的子集数据,以便命令可以非常快速地运行。如果您使用本教程来获得在生成和解释QIIME 2分析结果方面的额外经验,那么您应该使用10%的子采样数据,以便结果将由更多的序列数据支持(1%的序列可能不足以支持原始研究的一些发现)。
这里我们选择10%的子集序列用于后序列分析。
因为10%的子集序列也非常少,才几十M,注意文件名要手动删除-10p
部分。
上节我们使用对样本拆分后的序列执行质量控制,但是这次我们将对每组样本拆分后序列分别运行denoise-single
(单端去噪)命令。同样,我们希望可视化每批次中样本的序列质量。当我们运行denoise-single
命令时,我们需要为两次分析--p-trunc-len
和--p-trim-left
使用相同的参数值。当查看这两个命令产生的可视化时,只有两个命令基于相同的参数分析结果进行比较才有意义,否则多变量因素导致混淆。
查看可视化评估结果,也可下载qzv文件,使用 view.qiime2.org 打开查看,也可解压查看。
图1. 第一批数据量汇总图表
图2. 第一批数据质量评估图
问题:我们在两批结果中的交互质量图中观察,综合选择质控参数
--p-trunc-len
和--p-trim-left
的值是多少比较合理?详者注:序列上游13 bp的序列质量偏低,设置trim-left 13截掉前13bp序列;整体到150bp的质量都不错,则trunc-len保留150 bp的序列长度。
前几个碱基的质量似乎相对较低,然后似乎保持相对较高,直到序列测序结束。因此,我们将从每个序列中修剪前13个碱基,并在150个碱基处截断这些碱基。由于读数是151个碱基,这导致序列的截断非常少。
dada2质控和去冗余,本实验有两批独立的数据,需要处理两次,生成代表序列和特征表
# 去噪生成特征表,笔记本:1m28s,服务器:2m44s
# 去噪生成特征表,笔记本:48s,服务器:1m27s
denoise-single
命令返回去噪过程的基本统计,可以使用如下命令可视化。
图3. 第一批数据质量去噪过程统计。有非常多列,可托动下方滚动条查看;样本多,可以在右上角Search中查找。
在这个分析中,denoise-single
命令是最后一步,它需要对每批数据独立处理。因此,我们必须合并由这两个命令生成的对象,才能继续下游分析。首先我们将合并两个FeatureTable[Frequency]
对象,然后合并两个FeatureData[Sequence]
对象。这种操作是可行的,因为在每次去噪denoise-single
单次运行中生成的特征id是可以直接比较的(在这种情况下,特征id是定义特征序列的md5值(散列/哈希))。
当然也可以继续增加更多的批次数据,只要使用更多次的--i-tables
参数即可
合并两组数据的代表序列
特征表数据需要进行特征表统计,查看基本情况。
图4. 特征表汇总。下面还包括样本信息的汇总图表、特征的汇总图表。此页面中还可以交互查看样本、特征的详细信息,自己在网页或本地中查看和探索结果吧!
图片看不清,可查看下方纯文本表格
详者注:通过上表,我们可以确定特征表标准化时数据重抽样的参数,由于本测试,只用了文章原始数据的10%的数据,数据量很小,最小值为84,第一分位数为276,我们可选择276保留75%以上的样品。一般最小值1000,推荐5000以上,如果数据量都很大3-5万更好。
问题2. 生成
qiime dada2 denoise-single
单批次数据结果汇总表中,查看第一批数据中定义了多少特性?在第二批数据中定义了多少特性?这些数字与合并后的特性总数相比如何?
我们还将生成合并后的FeatureData[Sequence]
对象的摘要。在进行分析时,可以使用此摘要获得感兴趣特性的额外信息。
图5. 特征序列长度统计。
基本统计、分位数和序列详细。可点击序列进行NCBI blast查看详细注释。
Sequences)FeatureData[Sequence]
对象,你可以基于样本元数据来探索其微生物组成。自己尝试用上篇文章《》(2020.11版)分析方法。几个问题与个体的微生物组的纵向变化有关;可以参考,后面的教程中会详细讲解,到时可以学习此类分析方法。试着回答以下问题?
你已经获得了特征表、代表序列,还有你的实验设计。只需要《》(2020.11版)中构建进化树用于多样性分析
开始往后的代码运行一遍,再交互式探索结果,上面的问题的答案不言自明。
我们要考虑个体间是否存在差异,一般从整体描述角度,多查看Beta多样性分析结果,当然也可以查看Alpha或Taxonomy的差异。这里以最常用的Bray-Curtis距离下的Beta多样性为例来回答此问题。
# 构建进化树用于多样性分析
# Alpha和beta多样性分析,选择合适的抽样数量,观察table.qzv,仅有一个样小于1150
1.2/3 按个体分类存在丰富/均匀度差异吗?
Alpha多样性subject
组间显著性分析和可视化
此外,此图还可以查看更多分类型分组间是否存在多样性的差别。均匀度查看evenness-group-significance.qzv
文件即可,同理,我们发现按subject-id
分组没有q-value < 0.05的组,但有两组存在 q-value = 0.06,在没有更好的实验候选下也值得关注。
我们在学完后面的教程再补充答案,有基础的同行,可根据后面的章节参考代码自行尝试。
我们以unweighted_unifrac距离为例,查看core-metrics-results/unweighted-unifrac-emperor-week.qzv
结果,把Color分组着色选为week
,看到样本在week轴上展开非常好。再切换Sahpe面板,修改treatment-group
的形状为diamond,这样可以按不同形状分清供体和受试者。看到蓝色0周时与供体更像吗?同理,可查看bray_curtis距离的结果,规律如何呢?一般个人觉得Bray-Curtis距离有更好的解释,而且有权重比无权重更可信,更有意义。在不同场景下可能有不同的解读。
还可以进一步评估样本的测序量是否饱和,或从稀疏曲线中观察各组、时间点间的变化规律
在各种测序批次间,您是否观察到样品间的系统差异?
刘永鑫,博士,中科院青促会会员,QIIME 2项目参与人。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士,2016年遗传学博士后出站留所工作,任工程师。目前主要研究方向为宏基因组数据分析。目前在Science、Nature Biotechnology、Protein & Cell、Current Opinion in Microbiology等杂志发表论文30余篇,被引2千余次。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章2400余篇,代表作有、 、等,关注人数11万+,累计阅读1800万+。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
东北农业大学院校代码:10224。东北农业大学简称为“东北农大”,位于黑龙江省哈尔滨市,是世界一流学科建设高校,国家首批“211工程”重点建设高校。
东北农业大学简称为“东北农大”,位于黑龙江省哈尔滨市,是世界一流学科建设高校,国家首批“211工程”重点建设高校,黑龙江省人民政府与中华人民共和国农业部共建高校,入选国家中西部高校基础能力建设工程、卓越农林人才教育培养计划项目试点、高等学校创新能力提升计划,是全国首批博士、硕士学位授予单位,黑龙江省重点建设的省属特色高水平大学,“援疆学科建设计划”,首批高等学校科技成果转化和技术转移基地。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。