k-tuple頻度統計方法在微生物群落測序數據分析中的應用
第一章緒論
1.1研究背景和研究意義
在地球歷史的大部分時間里,地球上的生命完全由微觀的生命形式構成,微生物是地球上生物多樣性最為豐富的資源,在很多方面仍然占據著統治地位。就種類數量而言,微生物就遠遠超過了動植物種類的總和,它們生存環境的多樣性更是其他生物所不能比的。微生物雖不能為肉眼所見,卻切切實實分布在地球的每個角落。人體的每一個組織、鹽水和淡水、極地冰川和沸騰的溫泉中、表層土壤和深層基巖中、酸性礦井廢水和堿性湖中,都富集大量的微生物[1]。細菌和古生菌不但生活于各種存在其它生命的環境中,并且在很多情況下它們是極端環境里(如溫度達到340度的深海煙函、地表以下6千米的巖石中)唯一存活的生物[2]。微生物不僅無處不在,更是地球上所有生命中必不可少的一部分,它們在環境氣候形成、地球化學循環、地質演化和生物進化中扮演著重要的角色[3]。自然界中,微生物廣泛參與生物圈內的物質循環轉化并維持著生態平衡,尤其是與人類日常活動緊密相關的碳、氮、氧、磷、硫等重要元素的循環轉化都離不開微生物的活動。據估計,地球上3XIO3。個原核生物細胞分解產生了 350-550拍克(1拍克=10i5克)的碳、85-130拍克的氮和9-14拍克的憐,成為了這些地球養分的主要來源[4]。與其它動植物相同,人類的生存環境和健康問題也與微生物息息相關。微生物在人體的食物消化、毒素降解及機體免疫反應、環境污染物降解等方面發揮著重要作用[5],同時還很大程度地影響藥物醫;學、現代農業和發酵工業的發展。微生物同樣會對人類造成巨大的危害,病原微生物引發的病變(如艾滋病、禽流感等)在人類的歷史上曾帶來了重大的災難。微生物從發現到現在的短短300年間,已經在人類生活和生產實踐中得到廣泛應用,成為了繼動、植物兩大生物產業的第三大產業。曾有定論認為了解人類生存條件的關鍵在于了解人類的基因組[6,7]。
………….
1.2微生物群落的比較分析方法
早期的微生物基因組學研究主要通過固體培養基分離純化技術對單個物種進行克隆培養,進而再測取基因組序列。但是由于缺乏對微生物生存環境的認識,以及微生物之間存在復雜的共生關系,能夠單獨培養的微生物只占到很小一部分比例(約1%) [15],使得克隆培養的方法受到很大的限制。測序技術的發展跨越了這一研究初期的瓶頸,使得我們能夠直接從自然界的微生物群落中獲取遺傳信息。其中,直接從環境中提取出來的測序數據被稱為宏基因組,這一概念最早是在1988年由Handelsman[i6]等人提出。宏基因組概念被提出之后,許多大規模的宏基因組和宏轉錄組研究項目開始涌現。這些項目從不同的環境中采集了上百個微生物樣本,獲得了大量微生物測序數據。用于比較微生物群落的免培養的度量方法被相繼提出,其中基于16S核糖體RNA的方法是最主要的方法,而基于全宏基因組和宏轉錄組的方法還在探索中。16S核糖體RNA是原核生物的核糖體中30S亞基的組成部分,由于不同的細菌與古生菌間的16S核糖體RNA所屬的基因是高度保守的常被用來標識微生物類別或物種。不少研究學者從微生物樣本中,通過傳統的桑格測序技術(Sanger Sequencing)或新一代測序技術(Next Generation Sequencing, NGS[i8]),對小亞基核糖體RNA,尤其是16S核糖體RNA進行測序,從而提出了在微生物多樣性方面的具有意義的結論。在基于16S核糖體RNA的研究調查中,一些分析過程是用不同的Beta多樣性度量方法對多個微生物樣本進行比對,度量方法中一般有兩類:基于系統發育樹的和基于分類單元的。
………………
第二章基于k-tuple頻度統計的微生物群落比較分析方法
2.1基于k-tuple頻度統計的序列特征方法
先前有研究對基因組序列數據進行了統計分析,發現短序列片段的頻率分布在全基因組范圍內呈現出穩定的趨勢[45],而不同物種間短序列片段的穩定分布曲線又存在差異[39]。k-tuple頻度特征的保守性在后續的研究中也得到了廣泛的數據驗證和統計結果的支持。所以研究者認為,;k-tuple序列特征用序列的區域特征可以代表整體特性。k-tuple頻率分布的穩定特性目前在生物學上還沒有得到合理的解釋,但在統計學上可以通過概率模型來描述,研究發現原核生物的k-tuple頻度統計值符合馬爾科夫過程。由于k-tuple頻率分布在基因組范圍內存在穩定趨勢和保守特性,使得不同基因組序列的序列特征存在相異性,因而宏基因組或宏轉錄組數據的序列特征上的差異可以反映出微生物群落樣本在組成成分上的差異。所以在測序深度足夠覆蓋微生物群落的主要成分的情況下,我們認為可以通過統計整個宏基因組或宏轉錄組中k-tuple的出現頻度,也就是通過統計k-tuple頻度特征的方式對微生物群落進行特征描述,從而利用k-tuple頻度特征向量度量微生物群落之間的相異度。此外,這種比較方式不需要將短讀段配準到參考序列上,避免了微生物參考序列的不完整和難以測取兩方面問題。因此,我們將該方法應用在宏轉錄組數據的比較分析中,設計了一系列的微生物群落的比較實驗,詳細內容可參見本文的第三章。
………….
2.2基于相異度矩陣的分析方法和評估標準
斯皮爾曼等級相關系數評估的是兩個變量的單調相關性,即如果用單調函數來描述兩個變量之間的關系,擬合程度能達到多少。如果數據中沒有重復值,并且當兩個變量完全單調相關時,完美的斯皮爾曼相關系數則為+1或-1。本文的研究工作中,斯皮爾曼等級相關系數用于評估不同度量方法下梯度變量與主分量中間的關系。本文中,斯皮爾曼等級相關系數通過R語言的軟件包“stats”提供的“cor”函數來計算。我們用真實數據對d2Tools進行了測試,測試數據包括4個樣本,每個樣本的測序文件為fasta格式,大小約為200MB9整個測試數據共有2,830,286條讀段,讀段長度為164±102bp。軟件包在1.45GB內存上,花了約4個小時,串行地完成了整個分析流程,生成了 k從2到10的所有相異度度量下的相異度矩陣。不同k值的分析過程可以通過操作系統的命令實現并行,這樣則加快了程序運行時間,但要求更大的內存。htuple頻度向量的計算時間與輸入文件的大小和選擇的k值有關,程序運行的內存只與k的取值有關
…………
第三章基于k-tuple頻度統計的宏轉錄組數據........ 16
3.1宏轉錄組數據和宏基因組數據的總體描述........ 16
3.2實驗1:來自全球海洋的宏轉錄組數據樣本........ 18
3.2.1實驗數據 ........18
3.2.2實驗結果與分析........ 19
3.3實驗2:宏轉錄組數據樣本間的環境梯度........25
3.4實驗3:宏轉錄組數據和宏基因組數據........ 30
3.5實驗4k-tuple測序數據的聚類分析........ 34
3.5.1實驗數據 ........34
3.5.2實驗結果與分析........ 35
3.6實驗5:測序誤差對相異度度量方法的性能........ 38
3.7本章小結........ 40
第四章關于k-tuple頻度序列特征方法........ 41
4.1微生物群落仿真數據的聚類分析........ 41
4.1.1實驗設計........ 41
4.1.2結果分析........ 43
4.2相似物種的聚類分析........ 44
4.2.1靈長類物種的聚類分析........ 44
4.2.2人種的聚類分析 ........48
4.3測試不同測序平臺對聚類結果的影響........ 52
4.3.1實驗設計........ 53
4.3.2結果分析........ 54
4.4基于k-tuple的序列特征........ 56
4.5本章小結 ........60
第五章總結與展望........ 62
第四章關于k-tuple頻度序列特征方法的延伸性探討
在第三章中,我們通過五組不同的實驗,驗證了基于k-tuple頻度的序列特征方法的有效性,并且當選擇適合的相異度度量時,該方法能夠有效地對樣本進行劃分組別。那么當微生物群落樣本間的差異很小時,基于k-tuple頻度的序列特征方法是否能夠進行正確的分組?對于相似物種,序列特征方法是否有效?針對這以上問題,本文設計了兩組實驗,一組針對微生物群落樣本的仿真實驗,一組是基于真實的測序數據研究相似物種聚類的使用。此外,在先前的研究中,我們發現測序平臺對序列特征方法有很大的影響。本文第三章中,454平臺和k-tuple平臺的測序數據是分開進行實驗分析的,實驗5也只是針對454平臺產生的測序誤差進行了關于性能影響的分析,并未考慮不同測序平臺所帶來的影響。所以我們在本章中設計了第三組實驗,來探討不同測序平臺對聚類結果所產生的影響。

……….
結論
隨著宏基因組學的提出,關于微生物的研究往前邁了一大步。微生物群落的比較是宏基因組學中一個重要部分,是生態學研究的重點問題。基于k-tuple頻度的序列特征方法在宏基因組樣本的比較中的有效性在先前的研究中得到了驗證,而本文用真實的宏轉錄組測序數據首次驗證了序列特征方法在比較宏轉錄組樣本上的有效性,并對不同的相異度度量方法進行了性能評估,還開發了相應的軟件包來實現主要的分析流程。本文對序列特征方法進行了延伸性的探討,分別研究了序列特征方法對相似的微生物群落樣本、相似物種和不同測序平臺的測序數據所表現出來的聚類特性。從實驗結果中,我們發現在相似物種的聚類分析中,RNA數據樣本要比DNA數據樣本更容易劃分,這也從側面表明了宏轉錄組的測序數據對于微生物群落比較分析具有重要意義。另一方面,實驗的結果也反映出序列特征方法和各相異度度量方法的一些不足,如測序平臺的敏感性高、對于復雜微生物群落的聚類效果差,這些方面的不足也為改進序列特征方法提供了指導方向。
…………
參考文獻(略)
本文編號:8353
本文鏈接:http://www.malleg.cn/qitalunwen/8353.html

