備注:Linux系統,目前只需將以下分析工作形成pipeline,做成打包程序(以下多數內容我們已經掌握分析方法)。如果有能力做其他相關分析,可詳談。項目制,價格根據內容詳談
16S rRNA 基因測序數據分析
一、原始數據處理
1. 拆分(demultiplex):將barcode從reads上去掉;
2. 質量控制(quality control):
1)過濾reads尾部質量值20以下的堿基,設置50bp的窗口,如果窗口內的平均質量值低于20,從窗口開始截去后端堿基,過濾質控后50bp以下的reads,去除含N堿基的reads;
2)根據PE reads之間的overlap關系,將成對reads拼接(merge)成一條序列,最小overlap長度為10bp;
3)拼接序列的overlap區允許的最大錯配比率為0.2,篩選不符合序列;
4)根據序列首尾兩端的barcode和引物區分樣品,并調整序列方向,barcode允許的錯配數為0,最大引物錯配數為2;
(美吉使用軟件:FLASH、Trimmomatic)
3.去除嵌合體(chimeric sequence)
4.去除Chloroplast-Mitochondria-unknown-Archaea-Eukaryota
5.OUT聚類
SILVA v132
二、后續分析
1. α多樣性分析
多樣性:Shannon指數,Inverse Simpson指數
豐富度:sobs, ace chao
均勻度:Shannoneven, Simpsoneven
2.稀釋曲線
3.物種組成分析
柱狀圖,Venn圖,Heapmap圖 (vegan)
4.β多樣性:
距離計算方法:Bray-Curtis, Euclidean,weighted/unweighted UniFrac
Ordination: PCA, PCoA, NMDS
統計方法:Anosim, PERMANOVA(Adonis), PLS-DA
5.差異物種
LEfSe
6.代謝通路預測
7.Network網絡分析