合作文章|基于ALLHiC算法組裝染色體水平同源多倍體單體型基因組
2019.08.09

2019年8月5日,福建農林大學基因組中心張興坦副教授和唐海寶教授研究組在Nature Plants雜志在線發表題為“Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data”的研究論文,該研究利用ALLHi-C算法解決了同源多倍體基因組組裝的技術難題,成功完成了同源四倍體和同源八倍體甘蔗染色體組裝,安諾基因作為合作單位有幸參與了該項目的研究工作。


01

研究背景

同源多倍體在植物中較為常見,一般是由于相同的兩套或多套基因組經過加倍形成的,有重要的遺傳育種和農業生産價值。然而除了已發表的甘蔗割手密基因組[1]外,染色體級别的同源多倍體基因組很少被破譯出來。目前Hi-C技術越來越多的應用于輔助染色體水平二倍體基因組組裝,但是對于同源多倍體和近期加倍的異源多倍體來說,其同源染色體之間的Hi-C交聯信号會将序列相似的等位基因片段連接在一起,導緻同源染色體被錯誤地連接到一起,形成大量嵌合的組裝,所以其組裝仍存在較大困難。本研究中研究者利用ALLHi-C算法突破了同源多倍體染色體組裝的技術困境,取得了開拓性的進展。

02

材料選擇

同源四倍體甘蔗AP85-441,同源八倍體甘蔗Molokai-6081

03

研究結果

ALLHiC算法和驗證數據集概述

ALLHiC算法包括pruning,partition,rescue,optimization,building5個步驟,通過修剪同源染色體之間的交聯信号,将等位基因和同源序列分隔在各自的單倍型内獨立組裝,從而減少了大量拼接錯誤,通過優化算法改進了contig的排序和定向,尤其是連續性較低的contig,成功解決了染色體水平同源多倍體組裝困難的問題。
文章通過“合成的”或者真實的基因組數據集驗證了ALLHiC算法的可行性。通過将兩個栽培稻亞種Oryza sativa spp.japonica和O.sativa indica組合構建出合成基因組,再将染色體分成不同的contig組合,進行了一系列模拟,與真實基因組序列對比,有效驗證了ALLHiC算法的适用性。影響ALLHiC組裝scaffold的因素包括contig N50,嵌合區和沖突區占比以及序列多樣性。

b1.jpg

Fig.1 ALLHiC算法流程和功能模塊[2]
應用ALLHiC算法組裝同源四倍體甘蔗基因組

甘蔗AP85-441是通過Saccharum spontaneum花藥培育的同源四倍體(1n = 4x = 32),其基因組已發表,共32條染色體,8套同源染色體,每套染色體有4個單倍型,組裝出基因組大小為3.13 Gb,congtig N50為45 kb,文章以Chr4同源染色體組為例說明了ALLHiC算法在組裝染色體水平同源四倍體甘蔗基因組中的應用。

基于BLAST方法将預測的甘蔗AP85蛋白與高粱基因組比對來鑒定其等位基因contig,共8,107個注釋蛋白被鑒定為2,993個等位基因contig,4,167個非冗餘contig,共11,292,703條in situ Hi-C reads比對到等位基因contig上。通過修剪同源染色體Hi-C交聯信号,将等位基因contig分區,優化算法進行準确排序和定向後成功組裝出了相應的scaffolds。文章驗證了所有scaffolds都保持了高粱和甘蔗基因組之間的高共線性,說明二者分歧時間較短,與先前遺傳圖譜研究結果一緻。最終90.93%(3,789 / 4,167)的等位基因contig聚類組裝成一組4個單倍型的同源染色體,占總contig長度的94.47%(183.85 / 194.61 Mb)。Hi-C熱圖顯示每個同源染色體與其他染色體間沒有強相互作用。以上證明運用ALLHiC算法能成功組裝出染色體水平同源四倍體甘蔗基因組。

b2.jpg

b3.jpg

Fig.2 ALLHiC算法組裝同源四倍體甘蔗基因組S. spontaneum AP85-441的scaffolds[2]
應用ALLHiC算法組裝同源八倍體甘蔗基因組
甘蔗Molokai-6081是Saccharum robustum(2n=60-170)的同源八倍體,Molokai基因組内的某些染色體組可能會出現非整倍性,以Chr5同源染色體組為例,運用ALLHiC算法,生成了16個super-scaffolds,進一步研究它們之間的信号密度,重新聚類成9個super-groups,優化後進行排序定向,最終共12,077個contig,98.65%的序列錨定在Chr5,染色體長度為46-98Mb,證明ALLHiC算法可應用于組裝染色體水平同源八倍體甘蔗基因組。
ALLHiC算法在異源多倍體和高雜合二倍體基因組scaffold構建中的應用
異源四倍體栽培花生(Arachis hypogaea L.)基因組由兩個亞基因組組成,可能源于二倍體Arachis duranensis(AA)和Arachis ipaensis(BB)雜交形成。這兩個亞基因組的分歧時間非常短。100X PacBio測序數據組裝花生基因組大小為2.54 Gb,contig N50為1.51 Mb,将100X Hi-C reads比對到花生基因組contig,使用ALLHiC算法組裝出scaffolds與公布的花生基因組一緻性高達83.05%。除此之外,将最近發表的水稻Nipponbare和93-11構建成高雜合二倍體基因組,也顯示出ALLHiC算法廣泛的适用性。

04

文章總結

ALLHiC算法一方面通過修剪Hi-C平行信号和弱信号進行等位基因分型,減少了同源染色體間的嵌合連接,另一方面通過遺傳算法随機優化,極大地提高了短序列的排序和定向準确性。ALLHiC算法使多種重要多倍體基因組直接從頭組裝成為可能,還可用于修複已公布的多倍體物種基因組組裝序列中的錯誤。ALLHiC算法除了适用于同源多倍體染色體組裝外,同樣适用于不同複雜度的基因組,包括簡單的二倍體基因組、高雜合基因組和異源多倍體基因組,極大地推動了基因組領域的研究發展。

自2017年推出三代測序服務以來,安諾優達先後引進了10台PacBio Sequel和4台Sequel II測序儀,産品服務類型涵蓋三代基因組組裝、人重測序、動植物重測序、全長轉錄組測序等;累計完成三代項目超800+,其中組裝經驗涉及中草藥、林木、農作物、海洋生物、哺乳動物、昆蟲和人等,并發表多篇合作文章。安諾優達緻力于打造專屬于中國人群特有的二代+三代基因組數據庫和重要農業種質資源基因庫,共同推動三代測序在醫學基礎研究、臨床轉化研究和農業分子育種等領域的深度應用。


05

參考文獻

[1] Zhang J, Zhang X, Tang H, et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L[J]. Nature Genetics. 2018.08.

[2] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data[J]. Nature Plants. 2019.08.


感興趣的其他文章

年中喜報|安諾三代測序助力微拟球藻基因組發布~

歲末再添新禧|Hi-C輔助組裝項目合作文章見刊Nature Communications

安諾Hi-C輔助組裝合作文章再登Nature Communications

文案:産品經理 李園園

分享:
Copyright © 安諾優達基因科技(北京)有限公司 京ICP備12029022号-1