网上投注足球竞彩网-足球网上投注网-申烨太阳城三期

科研新聞

李彩課題組開(kāi)發(fā)基于深度學(xué)習(xí)構(gòu)建基因組突變率圖譜的通用方法

稿件來(lái)源:生命科學(xué)學(xué)院 編輯:談希、王冬梅 審核:滿(mǎn)意 發(fā)布日期:2022-12-15 閱讀量:

中大新聞網(wǎng)訊(通訊員李彩)生物體的基因組序列在傳代過(guò)程中不可避免會(huì)發(fā)生突變,基因組突變是遺傳多樣性的基礎(chǔ),也是生物演化的重要?jiǎng)恿χ弧;蚪M突變率是許多遺傳和演化分析的重要參數(shù)。例如,突變率可以用于估算某個(gè)基因組區(qū)域的預(yù)期突變數(shù)目,通過(guò)比較突變數(shù)目的預(yù)期值和群體里的觀(guān)測(cè)值可估計(jì)該區(qū)域受到的選擇壓力強(qiáng)度從而發(fā)現(xiàn)重要的功能區(qū)域或變異位點(diǎn)。雖然三十多年前就已發(fā)現(xiàn)基因組不同區(qū)域的突變率差異很大,然而構(gòu)建一個(gè)基因組的高精度、高分辨率的突變率圖譜非常困難,現(xiàn)有方法只能得到基因組突變率的粗糙估計(jì),且難以應(yīng)用到一般物種中,因此是遺傳和分子演化領(lǐng)域中有待解決的重要問(wèn)題。

該問(wèn)題的困難之一是,生物個(gè)體每一代產(chǎn)生的新生突變(de novo mutations)非常少,在基因組分布極其稀疏。例如,人類(lèi)個(gè)體中每一代只有大約50個(gè)新生的點(diǎn)突變,而檢測(cè)新生突變需要對(duì)父母和子代進(jìn)行全基因組測(cè)序,因此獲取大量的新生突變作為模型訓(xùn)練數(shù)據(jù)的成本非常高。另一個(gè)困難是,已知有許多因素與突變率相關(guān)且關(guān)系復(fù)雜,如鄰近序列、復(fù)制時(shí)間、DNA甲基化、重組率等,如何對(duì)眾多因素進(jìn)行建模來(lái)預(yù)測(cè)突變率也是一個(gè)重大挑戰(zhàn)。對(duì)于第一點(diǎn),近年的研究表明,測(cè)序群體中等位基因頻率很低的罕見(jiàn)變異(rare variants)因?yàn)槌霈F(xiàn)時(shí)間較短,可作為新生突變的近似,一定程度上緩解了建模時(shí)訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。但對(duì)于第二點(diǎn),現(xiàn)有方法一般是簡(jiǎn)單的線(xiàn)性或廣義線(xiàn)性模型,只考慮少量鄰近序列的信息(不超過(guò)10個(gè)堿基),通常還需要大量的突變數(shù)據(jù)及功能基因組特征來(lái)訓(xùn)練模型,這些問(wèn)題限制了模型的預(yù)測(cè)性能和跨物種應(yīng)用4,5。

近年來(lái),深度學(xué)習(xí)方法在很多復(fù)雜預(yù)測(cè)類(lèi)問(wèn)題上表現(xiàn)突出,在基因組學(xué)中的應(yīng)用也日益增多。由于基因組序列本身對(duì)突變率有著重要影響,也與許多功能基因組特征密切相關(guān),作者猜測(cè)通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型可以學(xué)習(xí)大范圍的鄰近序列來(lái)獲得與突變率相關(guān)的信息,進(jìn)而得到更好的突變率估計(jì)。基于此,來(lái)自中山大學(xué)生命科學(xué)學(xué)院的李彩課題組近日在Nature Machine Intelligence雜志上發(fā)表了題為“A generalizable deep learning framework for inferring fine-scale germline mutation rate maps”的研究,該研究提出了一種基于深度學(xué)習(xí)構(gòu)建基因組高精度突變率圖譜的通用方法—MuRaL (Mutation Rate Learner)。作者利用MuRaL構(gòu)建了人類(lèi)及多個(gè)物種的高質(zhì)量突變率圖譜,顯示出該方法的廣泛適用性。

MuRaL以相對(duì)較少的點(diǎn)突變數(shù)據(jù)及大范圍的上下游序列來(lái)訓(xùn)練模型,基于訓(xùn)練好的模型可預(yù)測(cè)全基因組每個(gè)堿基的點(diǎn)突變概率。MuRaL模型框架由“l(fā)ocal”和“expanded”兩個(gè)模塊構(gòu)成(圖1),分別用于學(xué)習(xí)所關(guān)注位點(diǎn)的近端和遠(yuǎn)端側(cè)翼序列的突變相關(guān)信息。其中,近端序列約為上下游10 bp,而遠(yuǎn)端序列則包括上下游1 Kb或更大的長(zhǎng)度。MuRaL通過(guò)不同的神經(jīng)網(wǎng)絡(luò)模塊分別對(duì)這兩方面信息進(jìn)行學(xué)習(xí),然后匯總兩個(gè)模塊的輸出得到最終的預(yù)測(cè)結(jié)果。


圖1. MuRaL模型的架構(gòu)


作者利用人類(lèi)遺傳變異數(shù)據(jù)庫(kù)gnomAD中大量的低頻罕見(jiàn)變異(作為新生突變的近似)進(jìn)行詳細(xì)的模型評(píng)估。結(jié)果表明,相對(duì)于已有模型,MuRaL在不同尺度上都有更好的預(yù)測(cè)準(zhǔn)確度,而且對(duì)訓(xùn)練數(shù)據(jù)的要求低很多。以人類(lèi)基因組為例,之前表現(xiàn)最好的Carlson等人的模型4需要幾千萬(wàn)的罕見(jiàn)變異和眾多的功能組學(xué)特征進(jìn)行訓(xùn)練。MuRaL模型用于訓(xùn)練的突變數(shù)據(jù)不到Carlson模型的二十分之一,且不依賴(lài)任何功能組學(xué)數(shù)據(jù),但所得的預(yù)測(cè)結(jié)果比Carlson模型更好。不僅如此,作者發(fā)現(xiàn),基于100個(gè)個(gè)體中的罕見(jiàn)變異進(jìn)行訓(xùn)練與1000個(gè)個(gè)體中的罕見(jiàn)變異訓(xùn)練的模型相差不大(圖2),這意味著在測(cè)序個(gè)體數(shù)目不多的情況也可以用MuRaL來(lái)構(gòu)建基因組的突變率圖譜。


圖2. 基于100個(gè)人和1000個(gè)人的罕見(jiàn)變異構(gòu)建的MuRaL模型的預(yù)測(cè)結(jié)果差異不大


因?yàn)镸uRaL對(duì)訓(xùn)練數(shù)據(jù)要求低,這為構(gòu)建很多物種的突變率圖譜找開(kāi)了一扇門(mén)。作者利用MuRaL獲得了恒河猴、果蠅和擬南芥這三個(gè)代表性物種的全基因組突變率圖譜,評(píng)估結(jié)果表明MuRa在這些物種中的預(yù)測(cè)性能都相當(dāng)不錯(cuò)。MuRaL還能利用預(yù)訓(xùn)練的模型進(jìn)行遷移學(xué)習(xí),高效快速地獲得近源物種的突變率圖譜。以恒河猴為例,因?yàn)楹愫雍锸侨祟?lèi)的近源物種,作者利用訓(xùn)練好的人類(lèi)MuRaL模型的參數(shù)作為初始參數(shù),僅使用恒河猴從頭預(yù)測(cè)模型訓(xùn)練數(shù)據(jù)的30%進(jìn)行遷移學(xué)習(xí)模型的訓(xùn)練。結(jié)果表明,從頭訓(xùn)練模型和遷移學(xué)習(xí)模型的預(yù)測(cè)性能表現(xiàn)相近,但遷移學(xué)習(xí)模型所需要的訓(xùn)練數(shù)據(jù)和計(jì)算資源要少很多。


圖 3. 利用MuRaL構(gòu)建擬南芥的基因組突變率圖譜


MuRaL預(yù)測(cè)的高精度突變率圖譜可應(yīng)用于許多下游分析。作為例子,作者基于人類(lèi)MuRaL模型的預(yù)測(cè)結(jié)果,對(duì)人類(lèi)編碼基因及其上下游3 Kb區(qū)域的突變率模式進(jìn)行聚類(lèi)分析,把所有基因分為三大類(lèi)(圖4)。很有意思的是,其中一類(lèi)基因在基因區(qū)及上下游都呈現(xiàn)出了明顯更高的突變率,功能富集分析表明這類(lèi)高突變率的基因很多與發(fā)育相關(guān),說(shuō)明許多發(fā)育相關(guān)基因具有更高的突變負(fù)擔(dān)。這是一個(gè)出乎意料的發(fā)現(xiàn),對(duì)理解疾病發(fā)生及生物演化可能有重要意義。

圖 4. 根據(jù)MuRaL預(yù)測(cè)的突變率對(duì)人類(lèi)編碼基因進(jìn)行聚類(lèi)


總之,該研究開(kāi)發(fā)了一種基于深度學(xué)習(xí)預(yù)測(cè)突變率的方法,該方法性能優(yōu)異且具有高適用性,可用于構(gòu)建許多物種的基因組突變率圖譜,并將促進(jìn)與突變相關(guān)的研究,具有廣闊的應(yīng)用前景。

中山大學(xué)生命科學(xué)學(xué)院的博士生方亦圓和鄧書(shū)益為該研究的共同一作,李彩教授為通訊作者。該研究得到中山大學(xué)有害生物控制與資源利用國(guó)家重點(diǎn)實(shí)驗(yàn)室、國(guó)家自然科學(xué)基金委員會(huì)、廣東省及廣州市的經(jīng)費(fèi)支持。

論文鏈接:https://www.nature.com/articles/s42256-022-00574-5

新聞投稿