中大新聞網(wǎng)訊(通訊員張銳)近年來(lái),在轉(zhuǎn)錄組中發(fā)現(xiàn)的各種RNA編輯修飾促進(jìn)了表觀(guān)轉(zhuǎn)錄組學(xué)領(lǐng)域的迅速發(fā)展。這些RNA編輯修飾位點(diǎn)在調(diào)控RNA代謝的各個(gè)層面發(fā)揮著關(guān)鍵作用,并廣泛涉及到多種生物過(guò)程,具備重要的功能。例如,m5C修飾在胚胎發(fā)育、腫瘤發(fā)展和病毒調(diào)控中扮演著重要角色,而m6A修飾和A-to-I編輯酶在多種癌癥中異常調(diào)節(jié),被認(rèn)為是有潛力的癌癥治療靶點(diǎn)。
與此同時(shí),單堿基分辨率的測(cè)序技術(shù)在飛速發(fā)展。針對(duì)不同的RNA編輯修飾,研究人員發(fā)明了若干基于化學(xué)方法的檢測(cè)手段,比如:Bisulfite sequencing (5-甲基胞嘧啶修飾, m5C) ;CMC-seq, BID-seq(假尿嘧啶修飾,ψ);GLORI,eTAM-seq (6-甲基腺嘌呤修飾, m6A)。除了化學(xué)方法,使用納米孔(Nanopore)直接進(jìn)行RNA 編輯修飾測(cè)序的技術(shù)也方興未艾。但是,這些檢測(cè)手段往往伴隨著假陽(yáng)性信號(hào),而往往沒(méi)有很好的先驗(yàn)知識(shí)去評(píng)估信號(hào)的真實(shí)性。比如,在Bisulfite sequencing中,由于RNA二級(jí)結(jié)構(gòu)會(huì)妨礙脫氨基反應(yīng)的進(jìn)行,Bisulfite sequencing中往往存在大量的位于高GC含量區(qū)域的假陽(yáng)性信號(hào);這些假陽(yáng)性信號(hào)和真實(shí)的具有特定基序(motif)的m5C位點(diǎn)混合在一起而難以分辨。同時(shí),針對(duì)不同的測(cè)序方法,除了使用統(tǒng)計(jì)學(xué)參數(shù)外,也很難直接對(duì)它們進(jìn)行比較。因而,當(dāng)前需要一個(gè)技術(shù)手段進(jìn)行RNA編輯修飾序列特征的比較和分類(lèi)。
傳統(tǒng)的序列分析工具通?;谛蛄谐霈F(xiàn)的頻率進(jìn)行統(tǒng)計(jì),從而獲得高頻出現(xiàn)的序列特征(即motif)。這些分析工具(如MEME,HOMER)為發(fā)現(xiàn)轉(zhuǎn)錄因子結(jié)合位點(diǎn)(TFBS)而設(shè)計(jì)——對(duì)于RNA修飾的motif發(fā)現(xiàn)并沒(méi)有進(jìn)行優(yōu)化。與TFBS的motif發(fā)現(xiàn)的情境不同,RNA修飾位點(diǎn)的序列是高度對(duì)齊的,且motif的長(zhǎng)度往往很短。實(shí)際上,RNA編輯修飾motif的發(fā)現(xiàn)與單細(xì)胞測(cè)序中的可視化流程十分相似:RNA編輯修飾motif可以通過(guò)One Hot encoding轉(zhuǎn)化成高維向量,而這些高維向量可以通過(guò)Manifold法進(jìn)行分解,(如UMAP,t-SNE)投影在二維平面上——與motif這一概念一致,如存在反復(fù)出現(xiàn)的相似的序列,它們將在二維投影的某個(gè)區(qū)域形成富集(高密度區(qū)域)。若能使用某種手段對(duì)投影進(jìn)行聚類(lèi),并提取這些富集區(qū)域,就能夠以可視化的形式對(duì)給定序列進(jìn)行分類(lèi)以及motif的發(fā)掘。
基于以上原理,中山大學(xué)生命科學(xué)學(xué)院張銳課題組開(kāi)發(fā)了一個(gè)基于非線(xiàn)性降維技術(shù)和密度聚類(lèi),稱(chēng)為交互式RNA修飾motif可視化和亞型分類(lèi)(iMVP,interactive epitranscriptomic Motif Visualization and Subtype Partition)的計(jì)算框架。該開(kāi)源框架iMVP(https://github.com/SYSU-zhanglab/iMVP)能夠用于RNA修飾motif的去噪、亞型分類(lèi)和可視化。與傳統(tǒng)方法相比,它在各種高通量數(shù)據(jù)、人工模擬高噪聲數(shù)據(jù)、超大數(shù)據(jù)集上都有出色表現(xiàn)。

圖1. iMVP框架
研究團(tuán)隊(duì)運(yùn)用iMVP工具對(duì)不同物種和發(fā)育時(shí)期的mRNA m5C圖譜進(jìn)行了全面分析。他們不僅確認(rèn)了已知的m5C motif,更意外地發(fā)現(xiàn)了兩種與酵母25S rRNA C2278和C2870 m5C位點(diǎn)相似的motif。這兩個(gè)位點(diǎn)在酵母中分別由Rcm1(NSUN5)和Nop2酶甲基化,因此作者合理地推測(cè)這兩種酶可能是m5C修飾的新writer。通過(guò)在HeLa 細(xì)胞中進(jìn)行敲低實(shí)驗(yàn),作者成功驗(yàn)證了這一假設(shè),確定了NSUN5與Nop2是mRNA m5C修飾的兩個(gè)新writer。這一新發(fā)現(xiàn),凸顯了 iMVP作為一種有效的工具,用于發(fā)現(xiàn)新的RNA修飾模式和識(shí)別新的修飾酶。這將有助于更深入地理解RNA修飾的復(fù)雜性和功能。
目前已經(jīng)開(kāi)發(fā)了多種生化方法,可以在單堿基分辨率繪制m6A/m6Am修飾在轉(zhuǎn)錄組中的分布。然而,不同方法之間的位點(diǎn)識(shí)別存在差異,因此需要對(duì)這些方法進(jìn)行系統(tǒng)評(píng)估和比較。iMVP的出現(xiàn)填補(bǔ)了這一知識(shí)空白。研究團(tuán)隊(duì)匯總了來(lái)自CIMS,CITS,m6ACE-seq, m6A-label-seq, MAZTER-seq, m6A-REF-seq,xPore和DART-seq,總共8種不同m6A/m6Am測(cè)序方法的數(shù)據(jù),發(fā)現(xiàn)盡管這些方法都使用相同的細(xì)胞類(lèi)型,但只有少數(shù)m6A和m6Am位點(diǎn)在不同方法之間重疊。這表明每種方法可能只捕獲了甲基化位點(diǎn)的部分子集。除外,該研究還評(píng)估了非抗體方法在m6A/m6Am測(cè)序中的可靠性。結(jié)果表明,m6A-label-seq和MAZTER-seq是目前最可靠的方法,為研究人員選擇合適的非抗體方法提供了重要的參考。
Nanopore測(cè)序數(shù)據(jù)存在修飾信號(hào)相位錯(cuò)配的問(wèn)題,限制了其在RNA編輯修飾位點(diǎn)的準(zhǔn)確識(shí)別。為應(yīng)對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)提出了相位匹配策略,成功解決了這一問(wèn)題,使iMVP工具能夠更精確地識(shí)別RNA修飾位點(diǎn)。此外,研究人員還分析了ModTect數(shù)據(jù)集,其中包含了從RNA-seq數(shù)據(jù)中推測(cè)的大量RNA修飾位點(diǎn)。鑒于這些位點(diǎn)的復(fù)雜性和噪聲,需要一種可靠的篩選方法來(lái)鑒定真正的RNA修飾候選位點(diǎn)。為此,作者引入了"spiked iMVP"策略,通過(guò)將已知修飾信號(hào)的k-mers加入變異數(shù)據(jù)中,標(biāo)記已知RNA修飾的模體偏好,并成功識(shí)別了高置信度的m1A、m1acp3Ψ和m22G位點(diǎn)。這些策略成功的擴(kuò)展了iMVP工具的應(yīng)用范圍
傳統(tǒng)的motifs 搜索工具通常僅適用于小規(guī)模數(shù)據(jù)集,而iMVP通過(guò)引入U(xiǎn)MAP和HDBSCAN技術(shù),并且通過(guò)使用GPU加速,成功應(yīng)對(duì)了處理極大RNA修飾位點(diǎn)數(shù)據(jù)集的挑戰(zhàn)。研究團(tuán)隊(duì)使用iMVP工具進(jìn)行了對(duì)包含1500萬(wàn)個(gè)A-to-I RNA編輯位點(diǎn)進(jìn)行分析。他們觀(guān)察到不同類(lèi)型的A-to- I RNA編輯位點(diǎn)在A(yíng)lu、非Alu重復(fù)和非重復(fù)區(qū)域中呈現(xiàn)出截然不同的模式。進(jìn)一步應(yīng)用iMVP工具,他們獲得了高分辨率的數(shù)據(jù)結(jié)果,成功識(shí)別出各類(lèi)編輯位點(diǎn)的簇群。

圖2. A-to- I RNA編輯位點(diǎn)在A(yíng)lu、非Alu重復(fù)和非重復(fù)區(qū)域中呈現(xiàn)出截然不同的模體模式
總之,iMVP的開(kāi)發(fā)為RNA編輯修飾研究帶來(lái)了新的可能性,為科研人員提供了一個(gè)更全面、更有效的工具,有望有助于更深入地理解RNA編輯修飾的復(fù)雜性和功能。
該成果于近期以“Epitranscriptomic subtyping, visualization, and denoising by global motif visualization”為題發(fā)表在Nature Communications。中山大學(xué)生命科學(xué)學(xué)院張銳教授,博士生劉健恒(現(xiàn)為康奈爾大學(xué)博士后)為本文的共同通訊作者,劉健恒、黃濤、姚靜為本文的并列第一作者,趙天璇、張鈺森也對(duì)本工作做出重要貢獻(xiàn)。中山大學(xué)生命科學(xué)學(xué)院為第一作者單位。