eDNA原始数据分析 各文件含义
QIIME2 Quantitative Insights Into Microbial Ecology 2微生物生态学定量洞察平台QIIME 2发音类似 chime two是目前全球生物信息学领域最流行、最权威的微生物/环境 DNAeDNA分析平台。它的作用它把成百上千个复杂的生物信息学工具比如去噪、比对、绘图、统计整合在一起。你只需要输入原始序列它就能帮你完成◦ 清洗数据去掉质量差的序列。◦ 物种鉴定告诉你是哪种鱼或哪种青蛙。◦ 多样性分析告诉你哪个水域的生物种类更丰富。◦ 可视化生成你之前看到的那些漂亮的柱状图和表格。参考https://forum.qiime2.org/t/qiime2-chinese-manual/838DADA2 Divisive Amplicon Denoising Algorithm 2分裂式扩增子去噪算法 2。它的核心任务分清哪些是“真实的生物序列”哪些是“测序仪产生的错误”。它产生的成果ASVAmplicon Sequence Variant扩增子序列变体。◦ 老方法 (OTU)把相似度 97% 的序列强行凑在一起比较粗糙。◦ DADA2 (ASV)它能识别出哪怕只有一个碱基不同的序列。如果你测到了两种非常接近的鱼DADA2 能把它们分出来而老方法可能会把它们混为一谈。DADA2 的工作流程1. 建模学习这批数据的错误规律比如测序仪是不是经常把 A 读成 C。2. 去噪根据规律把读错的碱基改回来或者把错得离谱的序列扔掉。3. 拼接把正向R1和反向R2序列缝合。4. 去嵌合体删掉在 PCR 过程中意外产生的“杂交序列”。VSEARCH 和 BLAST 的含义以及之间的区别是什么1.VSEARCH物种鉴定的“全局搜索官”所处阶段分析的中后期有了 ASV 之后。核心功能全局比对Global Alignment。它在做什么它拿着 DADA2 生成的 ASV去数据库里一个一个搜。全局比对意味着它要求你的序列和数据库序列从头到尾都要尽可能匹配。特点速度非常快非常严谨。形象比喻就像是指纹比对。它要求你的指纹和档案里的指纹从边缘到中心都要对得上。如果你的序列在中间有一点点不匹配它可能就无法给出具体的物种结论。2.BLAST物种鉴定的“局部搜索专家”所处阶段分析的中后期与 VSEARCH 同级是另一种选择。核心功能局部比对Local Alignment。它在做什么它是生物信息学中最经典的算法。它不要求整条序列完全对齐而是寻找最相似的片段。特点灵活性极高。即使你的序列两端有引物残留或者质量不好只要中间那段核心区域匹配得好它就能给出结果。形象比喻就像是人脸识别。即使你戴了帽子或口罩序列两端不匹配只要眼睛和鼻子核心片段对得上它就能认出你是谁。FASTQ文件FASTQ 文件就是基因测序仪比如 Illumina 测序仪直接吐出来的“原始数据”。它是生物信息学分析的起点。一个 FASTQ 文件里包含了成千上万条 DNA 序列。每条序列都由 4 行 组成循环往复• 第 1 行以 开头是这条序列的**“身份证号”**包含测序仪编号、坐标等信息。• 第 2 行真正的 DNA 碱基序列由 A、T、C、G 组成。这是你最关心的部分。• 第 3 行通常是一个 号作为分隔符。• 第 4 行一串乱七八糟的符号如 !#$%^*这是**“质量分数”**。◦ 重点每一个符号对应上面第 2 行的一个碱基。它代表测序仪对这个碱基“测得准不准”的信心。符号越靠后ASCII 码越高说明质量越好。清洗对象跑的 dada2 或者 deblur 指令本质上就是在读 FASTQ 的第 4 行质量分把那些质量太差、测不准的碱基给剪掉或扔掉。转换过程FASTQ原始数据→ QZAQIIME 2 打包后的数据→ TSV最后在 Excel 里看到的表格。QZA和QZV文件分别代表什么简单来说QZA 和 QZV 是 QIIME 2 专属的“打包文件”。1. QZA (QIIME Zipped Artifact) —— “数据包”它是纯粹的数据。比如序列、特征表、物种注释结果。例子◦ table.qza特征表数据◦ taxonomy.qza物种注释数据2. QZV (QIIME Zipped Visualization) —— “可视化包”它是生成的报告、图表或统计摘要。例子◦ demux.qzv测序质量图你可以看到碱基质量分布◦ taxa-bar-plots.qzv物种组成柱状图3. 如何查看它们查看 QZV图表1. 把文件下载到你的本地电脑。2. 打开浏览器访问QIIME 2 View 官网。3. 把 .qzv 文件直接拖进去。你就能看到交互式的图表了。查看 QZA数据你不能直接看必须通过qiime tools export 指令把它“解包”转换成人类能看懂的 .tsv 或 .fasta 文件。TSVTab-Separated Values简单来说TSV 文件就是一种“用制表符Tab键产生的空格分隔的纯文本表格”。它是生物信息学中最常用的数据交换格式也是从 QIIME 2 的“黑盒子”.qza文件里提取出来的“人类能看懂的结果”。例如直接打开把 taxonomy.tsv 下载到本地右键选择“用 Excel 打开”它会自动变成整齐的表格。manifest.txt简单来说QIIME2 软件并不知道测序文件存放在服务器的哪个角落也不知道哪些文件属于同一个样本。 需要写一个名为 manifest.txt 的文本文件告诉软件“每个样本对应的正向/反向测序文件在哪里”trunc-len-fTruncation Length - Forward正向序列截断长度它的作用告诉 DADA2从正向序列R1的开头算起保留到第几个碱基剩下的全部切掉。• 为什么要切测序仪在读序列的时候越往后读越累末端的质量通常非常差报错率极高。如果不切掉这些“烂尾”DADA2 可能会因为噪音太大而把整条序列都扔掉。举个例子如果你设置 --p-trunc-len-f 240• DADA2 会保留 R1 的前 240 个碱基。• 第 241 个碱基及之后的内容会被直接扔进垃圾桶。还有一个对应的参数trunc-len-r既然有 fForward正向通常也会有 rReverse反向。• trunc-len-r就是对反向序列R2进行同样的截断操作。关键点不能切得太狠在设置这两个参数时有一个致命的陷阱你必须保证截断后的 R1 和 R2 之间有足够的重叠区Overlap否则它们就拼不起来了• 公式截断后的R1长度 截断后的R2长度 - 目标片段的实际长度 20 碱基通常建议预留 20-30bp 以上。• 后果如果你切得太短导致 R1 和 R2 够不着对方你的分析结果里就会出现“0 条序列”因为它们全部拼接失败被丢弃了。序列去噪结果文件table.qza —— 特征表Feature Table它记录了每一个物种ASV在每一个样本中出现了多少次它是后续所有多样性分析比如算丰度、画柱状图的基础。rep-seqs.qza —— 代表序列Representative Sequences它记录了每一个物种 ID 对应的真实 DNA 序列A/T/C/G它是后续物种鉴定告诉你是哪种鱼的关键。电脑会拿着这些序列去数据库里比对。denoising-stats.qza —— 去噪统计Denoising Statistics它记录了数据在清洗过程中损耗了多少。会看到的数据◦ input最初有多少条序列。◦ filtered质量差被扔掉后剩下多少。◦ denoised去噪后剩下多少。◦ merged正向和反向拼接成功了多少。◦ non-chimeric去掉杂交序列后最终剩下的“纯净”序列。它用来判断你的参数设置得对不对。如果你发现 merged拼接那一步数据掉得特别厉害说明你的 trunc-len 切得太狠了。BIOMBiological Observation Matrix 生物观察矩阵在生物信息学和微生物组学研究中BIOMBiological Observation Matrix 是一种标准化的文件格式专门用来存储“哪个样本里有多少个物种”这类大型矩阵数据。可以把它理解为生信领域的 “压缩版 Excel”。BIOM 文件的三要素一个完整的 BIOM 文件通常包含三块核心内容1. 矩阵数据Data MatrixASV/OTU 在各个样本中的丰度。2. 行元数据Row Metadata每一行序列对应的物种信息。3. 列元数据Column Metadata每个样本的属性比如采样日期、采样地点。数据库16s 细菌和古菌 核糖体数据库silva数据库SilvaRelease138.1 http://www.arb-silva.deRDPRelease 11.5 http://rdp.cme.msu.edu/Greengene Release 13.8 http://greengenes.secondgenome.com/;Greengene2 Release 2024.09 http://ftp.microbio.me/greengenes_release/;ITS真菌UniteRelease10.0 http://unite.ut.ee/index.phpeDNA鱼类数据库MitoFishhttp://mitofish.aori.u-tokyo.ac.jp/download/ 浮游生物数据库SilvaRelease138.1 http://www.arb-silva.de原生生物数据库PR2https://github.com/vaulot/pr2_databaseNT数据库NThttps://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/软件及算法uclust algorithmhttp://www.drive5.com/usearch/manual/uclust_algo.html置信度阈值为0.8blastn比对默认evalue值为1e-10根据不同的数据库会做参数调整。Kraken2 PlusPF数据库在生物信息学分析中如果你正在做 12S 扩增子通常用于鱼类、脊椎动物 eDNA或者宏基因组分析但在没有预先训练好的 12S 机器学习分类器Classifier时选择 Kraken2 是一个非常明智且常见的“备选方案”甚至“优选方案”。PlusPF 这个名字是一个缩写组合代表了它所包含的生物类群• Plus代表在标准库Standard的基础上进行了扩充。• P (Protozoa)原生动物。• F (Fungi)真菌。完整的 K2_PlusPF 实际上包含了1. Standard古菌、细菌、人类、病毒、UniVec_Core常见载体污染。2. 真核生物包含了 Plant植物 以及 NCBI 所有的真核生物基因组。非冗余库 (Non-redundant Database简称 nr/nt 库)非冗余化 (De-replication) 的过程就是把 100% 相同或者相似度极高如 99%的序列合并成一条记录。nr 与 nt 的区别在 NCBI 中nr和nt都是非冗余库但内容不同• nr (Non-redundant Protein)非冗余蛋白质序列库。它把不同来源但序列相同的蛋白质合并了。• nt (Nucleotide)非冗余核苷酸序列库。它包含了所有的 mRNA、基因组 DNA、线粒体 DNA 等。非冗余库对研究的意义(1) 提高搜索效率由于去掉了成千上万条重复的“废话”在查找物种序列的速度会比在原始全库中快得多。(2) 解决分类歧义如果数据库里有三条一模一样的序列分别被标注为“大熊猫”、“小熊猫”和“浣熊”假设录入错误电脑会很困惑。非冗余库在合并时通常会通过算法选择一条最权威、注释最清晰的序列作为代表。(3) 存储压力更小即使是经过非冗余处理的 nt 库压缩后通常也有近 100GB。如果没有非冗余化这个库的大小可能会膨胀到服务器根本无法运行的程度。