科技日報記者 張夢然
深度思維(DeepMind)公司28日在《自然》雜志發(fā)表論文,展現(xiàn)了其大模型“阿爾法基因組”(AlphaGenome)解碼基因的“超能力”。該模型不僅能預測長達100萬堿基對的DNA序列功能,還能預測DNA序列變異如何影響不同生物過程。其將推動理解遺傳疾病、改進基因檢測,為開發(fā)新療法提供信息。

基因變異會影響生物學過程并可能引發(fā)疾病,但理解DNA序列變化如何影響其功能是個難題。大多數(shù)變化(約98%)發(fā)生于非編碼區(qū)域(不編碼蛋白質(zhì)但影響基因表達的DNA區(qū)域),使得預測其影響變得困難。解決這一問題需要計算模型。現(xiàn)有方法在序列長度和預測強度上必須作出取舍,但去年6月推出的深度學習模型“阿爾法基因組”,宣稱能在長DNA序列中作出高分辨率預測。
此次,深度思維團隊詳細展示了“阿爾法基因組”的能力。這一模型用人類和小鼠基因組訓練來學習DNA序列如何影響不同生物學過程。“阿爾法基因組”可即時預測5930種人類或1128種小鼠遺傳信號,這些信號與特定功能有關,如基因表達、剪接(基因組的切割與重組)和蛋白質(zhì)修飾。在26項變異效果預測評估中,其結(jié)果在25項中與現(xiàn)有頂尖模型表現(xiàn)相當或更優(yōu)。研究團隊指出,該模型優(yōu)勢在于能同時對多種遺傳信號和生物學結(jié)果進行多重預測。
研究團隊表示,進一步改進這一工具或能拓展其應用,例如增加涵蓋的物種,或拓展模型能識別的非編碼序列范圍。他們總結(jié)說,“阿爾法基因組”有望深化對DNA序列變異引發(fā)的復雜生物學結(jié)果的理解。
先前的模型必須在序列長度和分辨率之間作出權(quán)衡,這制約了它們準確預測的范圍。而深度思維的技術進步,在不必顯著增加訓練資源的前提下,解決了這一限制。據(jù)稍早時間報道稱,訓練單個“阿爾法基因組”模型約耗時4小時。
總編輯圈點
AlphaGenome的出現(xiàn)標志著基因組功能預測邁入“長序列高精度”階段。在應用層面,該模型為復雜疾病的遺傳機制研究提供了“計算顯微鏡”,使得解讀百萬堿基尺度的結(jié)構(gòu)變異與非編碼突變成為可能。未來,從罕見病基因檢測的臨床解讀,到合成生物學中的調(diào)控元件設計,甚至表觀藥物研發(fā),都可能變得與以前大不相同。而我們,有幸看到了基因組“暗物質(zhì)”被真正照亮的曙光。