网上投注足球竞彩网-足球网上投注网-申烨太阳城三期

科研新聞

中山眼科中心肖傳樂(lè)和劉奕志團(tuán)隊(duì)開(kāi)發(fā)Nanopore測(cè)序數(shù)據(jù)新校正組裝算法,并組裝視網(wǎng)膜母細(xì)胞瘤的高完整度基因組

稿件來(lái)源:中山眼科中心 發(fā)布日期:2021-01-15 閱讀量:

三代測(cè)序技術(shù)(PacBio和Oxford Nanopore)可解決基因組重復(fù)區(qū)域的組裝難題,提高基因組完整性,已成為發(fā)育、再生、腫瘤和其它疾病過(guò)程中細(xì)胞基因組組裝的主流技術(shù)。其中,納米孔(Nanopore)測(cè)序技術(shù)的迅速發(fā)展更使得測(cè)序成本顯著降低,并且由于其可實(shí)現(xiàn)超長(zhǎng)讀長(zhǎng)(高達(dá)1Mbp),在復(fù)雜基因組組裝中具有天然優(yōu)勢(shì)。然而,目前Nanopore的測(cè)序錯(cuò)誤分布廣泛(10-30%,圖1A),存在高錯(cuò)誤局部區(qū)域(1000bp中存在50%測(cè)序錯(cuò)誤,圖1B),并且高錯(cuò)誤局部區(qū)域的發(fā)生隨著測(cè)序讀長(zhǎng)增加而顯著增加(圖1C),從而導(dǎo)致超長(zhǎng)文庫(kù)數(shù)據(jù)中20-30%的序列存在高錯(cuò)誤區(qū)域?,F(xiàn)有的錯(cuò)誤校正軟件只能通過(guò)裁剪的方式剔除高錯(cuò)誤局部區(qū)域,顯著降低了Nanopore序列完整性和組裝完整性。

圖 1 Nanopore測(cè)序錯(cuò)誤分布特征

我校中山眼科中心肖傳樂(lè)/劉奕志團(tuán)隊(duì)和中南大學(xué)王建新團(tuán)隊(duì)于2021年1月4日在Nature Communications雜志上聯(lián)合發(fā)表題為“Efficient assembly of Nanopore reads via highly accurate and intact error correction”的研究論文,提出了Nanopore漸進(jìn)式校正組裝模型,開(kāi)發(fā)了相應(yīng)軟件NECAT,應(yīng)用于組裝高完整度的視網(wǎng)膜母細(xì)胞瘤基因組,并發(fā)現(xiàn)了多個(gè)結(jié)構(gòu)變異位點(diǎn)。

研究者提出了漸進(jìn)式序列校正策略,首先選擇高精度的序列校正錯(cuò)誤率的區(qū)域(圖2B),之后優(yōu)選校正后高精度序列校正高錯(cuò)誤局部區(qū)域,從而保證了序列校正速度和完整性(圖2C);另外,研究者還提出漸進(jìn)式組裝策略,通過(guò)校正后高精度的序列組裝基因組骨架(圖2D),之后通過(guò)原始序列提升基因組完整度(圖2E),從而保證基因組組裝結(jié)果的正確性和完整性。研究者將上述模型開(kāi)發(fā)了NECAT軟件,開(kāi)放給國(guó)內(nèi)外其它科研人員,進(jìn)行長(zhǎng)達(dá)1年的體驗(yàn)提升。

圖2 NECAT校正組裝流程圖

隨后,研究者收集了多種模式生物Nanopore數(shù)據(jù)集進(jìn)行性能測(cè)試,結(jié)果表明:NECAT校正后序列平均精度可達(dá)95-98%,可恢復(fù)原始數(shù)據(jù)中99%的高錯(cuò)誤局部區(qū)域(HERS),從而保留了序列長(zhǎng)度完整性(表1);NECAT組裝完整性明顯高于同類(lèi)校正組裝軟件,且組裝錯(cuò)誤量顯著低于同類(lèi)軟件。另外,研究者將NECAT校正結(jié)果與多個(gè)組裝軟件結(jié)合使用發(fā)現(xiàn):NECAT校正結(jié)果顯著提高其它Nanopore組裝軟件的組裝質(zhì)量。

表1 NECAT序列錯(cuò)誤校正性能評(píng)估

最后,研究者完成了視網(wǎng)膜母細(xì)胞瘤Nanopore測(cè)序,并應(yīng)用NECAT組裝出了完整度較高母細(xì)胞瘤癌癥基因組,通過(guò)組裝結(jié)果發(fā)現(xiàn)了很多高精度結(jié)構(gòu)變異(SV)位點(diǎn),其很多位點(diǎn)都與目前實(shí)驗(yàn)報(bào)道和功能預(yù)測(cè)相符(圖3)。與原始數(shù)據(jù)SV檢測(cè)方法相比,NECAT組裝結(jié)果檢測(cè)SV精度顯著高于目前SV檢測(cè)方法。上述結(jié)果表明,通過(guò)NECAT序列校正,顯著降低高錯(cuò)誤區(qū)域所造成的SV假陽(yáng)性結(jié)果。

圖3 視網(wǎng)膜母細(xì)胞瘤基因組染色體圖譜及SV位點(diǎn)

綜上所述,本研究提出的漸進(jìn)式校正組裝方法可以有效解決了Nanopore復(fù)雜測(cè)序錯(cuò)誤問(wèn)題,顯著提高了Nanopore數(shù)據(jù)組裝完整性、正確性和數(shù)據(jù)利用率。另外,通過(guò)NECAT序列校正,可以有效降低高錯(cuò)誤區(qū)域SV的假陽(yáng)性。

論文鏈接:https://www.nature.com/articles/s41467-020-20236-7

新聞投稿