中大新聞網(wǎng)訊(通訊員陳語(yǔ)謙)藥物發(fā)現(xiàn)和開(kāi)發(fā)對(duì)制藥業(yè)和患者具有巨大的潛在利益。濕實(shí)驗(yàn)技術(shù)的識(shí)別既昂貴又耗時(shí),因此使用人工智能的方法識(shí)別潛在藥物可以顯著降低成本,大大縮短藥物研發(fā)進(jìn)程。分子表示是可靠的定量活性-結(jié)構(gòu)或性質(zhì)-結(jié)構(gòu)關(guān)系研究的基礎(chǔ),但分子表示仍面臨子結(jié)構(gòu)多義性、原子團(tuán)間信息流不暢等幾個(gè)亟需解決的問(wèn)題。
近日,我校智能工程學(xué)院陳語(yǔ)謙教授團(tuán)隊(duì)在國(guó)際知名雜志Briefings in Bioinformatics在線(xiàn)發(fā)表了題為“Mol2Context-vec: learning molecular representation from context awareness for drug discovery”的研究論文。該研究提出了一種新穎的深度上下文雙向長(zhǎng)短期記憶架構(gòu)Mol2Context-vec,它可以整合不同層次的內(nèi)部狀態(tài)來(lái)以動(dòng)態(tài)表示分子子結(jié)構(gòu),并且獲得的分子上下文表示可以捕獲任何原子團(tuán)之間的相互作用,尤其是一對(duì)拓?fù)渖舷嗑噙b遠(yuǎn)的原子團(tuán)。

圖1. Mol2Context-vec的網(wǎng)絡(luò)架構(gòu)和步驟概述

圖2. Mol2Context-vec和14種基線(xiàn)方法在生物活性和生理相關(guān)的基準(zhǔn)數(shù)據(jù)集上的預(yù)測(cè)性能對(duì)比
Mol2Context-vec在大規(guī)模語(yǔ)料庫(kù)中使用無(wú)監(jiān)督學(xué)習(xí),結(jié)果顯示比其他模型的性能更穩(wěn)定。該研究使用的分層方法使得相同子結(jié)構(gòu)在不同分子中有了動(dòng)態(tài)表示,對(duì)隱含捕捉分子連通性提供了新思路。Mol2Context-vec 在多個(gè)生物化學(xué)基準(zhǔn)數(shù)據(jù)集上取得了最先進(jìn)的性能,證明了該研究在促進(jìn)分子表示學(xué)習(xí)方面的競(jìng)爭(zhēng)力。該研究還提供了易于解釋的模型結(jié)果,這將增進(jìn)研究人員對(duì)分子活性、毒性的潛在因素的理解。

圖3. Mol2Context-vec 對(duì)苯妥英的化學(xué)直覺(jué)解釋
(a) 苯妥英原子相似度矩陣的熱圖 (b) 苯妥英分子結(jié)構(gòu)中每個(gè)原子對(duì)溶解度的貢獻(xiàn)可視化

圖4. 三個(gè)子結(jié)構(gòu)的高維上下文向量嵌入到3D空間中的分布可視化并顯示了其中八個(gè)分子的注意力權(quán)重
值得注意的是,Mol2Context-vec提供動(dòng)態(tài)子結(jié)構(gòu)表示來(lái)捕捉不同分子中相同子結(jié)構(gòu)的局部效應(yīng)。對(duì)于有歧義的子結(jié)構(gòu),Mol2Context-vec 生成的上下文向量正確地分離了3D空間中的不同類(lèi)別。此外,多個(gè)分子的注意力權(quán)重顯示了Mol2Context-vec模型可以學(xué)習(xí)長(zhǎng)距離關(guān)系,尤其是分子內(nèi)氫鍵。提議的模型通常關(guān)注的原子團(tuán)和支架非常接近人類(lèi)對(duì)分子的化學(xué)理解。
陳語(yǔ)謙教授團(tuán)隊(duì)長(zhǎng)期致力于人工智能交叉研究。上述研究得到了國(guó)家自然科學(xué)基金面上項(xiàng)目(No.62176272)等項(xiàng)目的支持,由我校智能工程學(xué)院博士生呂秋杰在陳語(yǔ)謙教授指導(dǎo)下完成。呂秋杰為論文共同第一作者,陳語(yǔ)謙教授為論文通訊作者。
論文鏈接:https://academic.oup.com/bib/article/22/6/bbab317/6357185