AI蛋白質諾獎後再登Nature,第一性原理級精度
歷時四年,微軟亞研院AI for Science團隊發佈AI驅動的從頭算(ab initio)生物分子動力學模擬系統。
直接登上Nature正刊。
系統名爲AI²BMD,能夠高效模擬含有10000多個原子的各種蛋白質,分辨率達到全原子級別,近似達到從頭算(第一性原理)的精確度。
且比量子力學方法中的密度泛函理論(DFT)能實現的速度快幾個數量級。
AI²BMD的出現,可促進藥物發現、蛋白質設計和酶工程等領域的新生物醫學研究。
微軟研究院院長Peter Lee親自發帖子爲自家研究做宣傳:
網友們紛紛表示這項研究十分令人着迷,可能會對一些領域產生顛覆性的影響:
爲便於大家理解,作者們還自撰了一篇Blog,量子位在不改變原意的基礎上進行了編譯整理,一起來康康AI²BMD到底長啥樣。
在介紹AI²BMD之前,先來簡單瞭解一下分子動力學模擬。
生物世界的本質在於其分子及其相互作用的不斷變化。理解生物分子的動態和相互作用對於破譯生物過程背後的機制以及開發生物材料和藥物至關重要。然而通過實驗幾乎不可能捕捉這些現實生活中的運動。
此前,AlphaFold、RoseTTAFold等爲代表的深度學習方法,已經實現了用實驗精度預測靜態晶體蛋白結構。
不過精確地在原子分辨率下表徵動態仍然是一項非常具有挑戰性的任務,特別是當蛋白質發揮作用並與其它生物分子或藥物分子相互作用時。
分子動力學(MD)模擬方法將物理學定律與數值模擬相結合,用於探索分子運動與其生物功能之間的關係,已經被廣泛使用了幾十年。
分子動力學模擬大致可以分爲兩類:經典分子動力學和量子力學。
經典版本在2013年獲得諾貝爾獎,強調了其在推動人類理解複雜生物系統方面的關鍵作用。
量子力學方法中的密度泛函理論(DFT)在1998年獲得諾貝爾獎,標誌着計算化學的一個關鍵時刻。
不過,經典分子動力學採用分子系統的簡化表示,實現長時間構象變化的快速模擬速度,但準確性較低。相比之下,像密度泛函理論這樣的量子力學模型提供了自下而上的計算,但對於大生物分子來說,計算成本過高。
由此,微軟研究院開發出了基於AI的從頭算生物分子動力學系統——AI²BMD,這也是團隊四年研究成果的結晶。
AI²BMD能夠高效地以全原子分辨率模擬包含超過10000個原子的各類蛋白質,達到近似從頭計算(第一性原理)的精度。
相比標準模擬技術,它在生物分子模擬方面實現了前所未有的權衡:獲得比經典模擬更高的精度,其計算成本雖然高於經典模擬,但比密度泛函理論(DFT)快幾個數量級。
AI²BMD採用專門設計的通用蛋白質分片方法,將蛋白質分割成重疊的單元,創建了2000萬個快照的數據集,這也是迄今爲止DFT層面最大的數據集。
基於團隊先前設計的通用分子幾何建模基礎模型ViSNet,團隊用機器學習訓練了AI²BMD的勢能函數。然後通過高效的AI²BMD模擬系統進行模擬,在每一步中基於ViSNet的AI²BMD勢能都會以從頭計算的精度計算蛋白質的能量和原子力。
通過動力學和熱力學的全面分析,AI²BMD與實驗室數據表現出更好的一致性,例如在蛋白質的摺疊自由能和不同現象方面,比經典分子動力學表現更好。
總結來說,AI²BMD在分子動力學模擬領域取得了以下幾個方面的重大突破:
引入了一種可泛化的“機器學習力場”,這是一種學習原子與分子間相互作用的模型,用於具有從頭算精度的全原子蛋白質動力學模擬。
它是首個解決機器學習力場在模擬蛋白質動力學中的泛化挑戰的方法,展示了對多種蛋白質進行穩健地從頭算分子動力學模擬。
AI²BMD將量子力學建模從小的局部區域擴展到整個蛋白質,而且不需要對蛋白質有任何先驗知識。這消除了量子力學與蛋白質的分子力學計算之間可能的不兼容性,並將量子力學區域的計算速度提高了幾個數量級,使全原子蛋白質接近從頭算計算成爲現實。因此,AI²BMD爲衆多下游應用鋪平了道路,提供了表徵複雜生物分子動力學的新視角。
AI²BMD比x和其它量子力學方法快幾個數量級。支持對超過10000個原子的蛋白質進行從頭計算,使其成爲跨學科領域中最快的AI驅動的分子動力學模擬程序之一。
對於AI²BMD和蛋白質分子力學模擬的蛋白質摺疊和解摺疊過程,AI²BMD能夠探索更多蛋白質分子力學無法檢測到的可能構象空間。
因此,AI²BMD爲研究藥物-靶標結合過程、酶催化、變構調節、內源性無序蛋白等過程中的蛋白質柔性運動提供了更多機會,與溼實驗更好地吻合,爲生物機制檢測和藥物發現提供更全面的解釋和指導。
AI²BMD超越了量子力學/蛋白質分子力學混合方法,並在不同的生物應用場景中展示了與溼實驗室實驗的高度一致性,包括J耦合、焓、熱容、摺疊自由能、熔點和pKa計算。
這項研究共同一作有四位Tong Wang、Xinheng He、Mingyu Li、Yatao Li,由Tong Wang、Bin Shao共同指導。
Tong Wang
Tong Wang是微軟研究院AI4Science高級研究員。他在清華大學獲得博士學位,並在哈佛大學有訪問學者經歷。
他的研究重點是分子動力學模擬、量子模擬、計算機輔助藥物發現和蛋白質結構預測的算法設計與應用。
Tong Wang博士以第一作者和通訊作者身份發表了一系列研究,刊登在Nature Machine Intelligence、Nature Communications、Cell Research等期刊上,並擁有多項專利。他還是Nature系列期刊的審稿人以及ACS出版物的榮譽審稿人。
作爲團隊負責人,他在首屆全球AI藥物開發大賽中獲得冠軍,並在NIPS2022的OGB大規模挑戰賽中獲勝。
邵斌(Bin Shao)
邵斌是微軟研究院AI4Science資深高級研究經理,於2010年7月在復旦大學獲得博士學位後加入微軟。
他的研究興趣包括蛋白質動力學模擬、計算生物學、機器學習和分佈式計算,研究成果已發表在多個頂會和期刊上。
由邵斌團隊開發的Microsoft Graph Engine正在爲微軟的多個產品和服務提供支持,如微軟Satori知識圖譜、必應搜索、MSN、Xbox和認知服務等。邵斌還是開源輕量級AIMD模擬程序LightAIMD的發起人和主要開發者。
參考鏈接:[1]https://www.nature.com/articles/s41586-024-08127-z[2]https://x.com/peteratmsr/status/1854199356850889096[3]https://www.binshao.info/[4]https://www.microsoft.com/en-us/research/people/watong/