又是AI?剛剛,2024年諾貝爾化學獎被他們獲得

本站科技10月9日消息,剛剛,2024年諾貝爾化學獎揭曉,一半獎項授予了大衛·貝克(David Baker),表彰其在計算蛋白質設計領域的貢獻;另一半則共同授予德米斯·哈薩比斯(Demis Hassabis)和約翰·M·詹珀(John M. Jumper),以表彰他們利用人工智能在蛋白質結構預測方面的卓越成就。

哈薩比斯和詹珀的工作展示了AI在生命科學領域的巨大潛力。AI不僅加快了複雜生物過程的理解速度,還爲藥物研發提供了新工具。通過精準預測蛋白質結構,AI讓科學家可以更加高效地設計新藥物,改善人類健康。

另一位獲獎者大衛·貝克,則專注於從頭設計蛋白質。作爲蛋白質設計領域的先驅,他不僅開發了可以預測蛋白質結構的算法,還通過計算設計出自然界中不存在的新型蛋白質。不僅推動了基礎生物學的發展,還爲生物製藥領域帶來了前所未有的創新可能性。

該獎項的頒發凸顯了AI在推動生命科學前沿突破中的重要作用,特別是在複雜蛋白質結構預測和設計方面。

蛋白質是生命的核心構件,其三維結構決定了功能。然而,傳統上研究和預測蛋白質的結構需要依賴於實驗方法,如X射線晶體學和冷凍電鏡。這些方法不僅費時、昂貴,還不適用於某些無法結晶的蛋白質類型。

德米斯·哈薩比斯和約翰·詹珀領導的DeepMind團隊在2020年推出了AlphaFold2系統,該系統藉助AI,從蛋白質的氨基酸序列出發,直接預測出蛋白質的三維結構,且精度達到了接近實驗的水平。

這一突破解決了困擾科學界數十年的“蛋白質摺疊問題”,極大加速了生物學和醫藥領域的研究進展。到目前爲止,AlphaFold2已經成功預測了超過兩億種蛋白質的結構,助力研究人員在瘧疾疫苗、癌症治療、酶設計等領域取得了重要進展。

今年,DeepMind和Isomorphic Labs發佈了新一代AlphaFold3,其在精確預測所有生命分子(包括蛋白質、DNA、RNA、配體等)的結構及其相互作用方面取得了更大突破。

這場結合了AI與生物科學的革命,纔剛剛開始。(袁寧)

以下內容來自諾貝爾獎官方介紹:(致敬AI學者,本介紹由AI翻譯,本站進行校對)

2024年諾貝爾化學獎——科普背景

他們通過計算和人工智能揭示了蛋白質的秘密

化學家們長期以來夢想着能夠全面理解並掌握生命的化學工具——蛋白質。如今,這個夢想已經觸手可及。德米斯·哈薩比斯(Demis Hassabis)和約翰·傑姆珀(John Jumper)成功利用人工智能預測了幾乎所有已知蛋白質的結構。大衛·貝克(David Baker)則掌握瞭如何創造全新的蛋白質。其發現的潛力巨大。

生命的多彩化學是如何實現的呢?答案是蛋白質,它們可以被描述爲巧妙的化學工具。蛋白質通常由20種氨基酸組成,氨基酸可以通過無數種方式組合。在DNA中儲存的信息作爲藍圖,氨基酸在細胞內連接,形成長鏈。

接着,蛋白質的神奇之處出現了:氨基酸鏈扭曲並摺疊成獨特的三維結構。這一結構賦予了蛋白質功能。有的成爲化學構件,形成肌肉、角或羽毛;有的則成爲激素或抗體;許多蛋白質形成酶,推動生命的化學反應。位於細胞表面的蛋白質也非常重要,它們作爲細胞與周圍環境之間的溝通渠道發揮作用。

幾乎無法高估這些生命的化學構件——20種氨基酸的潛力。2024年諾貝爾化學獎探討的是如何在全新的水平上理解並掌握它們。哈薩比斯和傑姆珀通過人工智能解決了化學家們50多年未解的難題:如何根據氨基酸序列預測蛋白質的三維結構。他們成功預測了幾乎所有已知的2億種蛋白質的結構。而貝克則創造了從未存在的全新蛋白質,很多新蛋白質具有全新的功能。

蛋白質的最初模糊圖像

化學家從19世紀開始就知道蛋白質對生命過程的重要性,但直到20世紀50年代,化學工具才足夠精確,使研究人員能夠開始更詳細地探索蛋白質。劍橋的研究人員約翰·肯德魯(John Kendrew)和馬克斯·佩魯茨(Max Perutz)在20世紀50年代末通過使用X射線晶體學方法,成功地展示了首個蛋白質的三維模型。這一突破性的發現爲他們贏得了1962年諾貝爾化學獎。

隨後,研究人員主要依靠X射線晶體學,並付出了巨大的努力,成功地獲得了大約20萬種不同蛋白質的圖像,這爲2024年諾貝爾化學獎奠定了基礎。

一個謎題:蛋白質如何找到其獨特的結構?

美國科學家克里斯蒂安·安芬森(Christian Anfinsen)做出了另一項早期的發現。他通過各種化學手段使現有的蛋白質展開並重新摺疊,結果每次蛋白質都能摺疊成完全相同的形狀。1961年,他得出結論,蛋白質的三維結構完全由其氨基酸序列決定。因這一發現,安芬森在1972年獲得了諾貝爾化學獎。

然而,安芬森的邏輯包含一個悖論,美國另一位科學家賽勒斯·萊文薩爾(Cyrus Levinthal)在1969年指出,即使一個蛋白質僅由100個氨基酸組成,理論上它可以假設至少10^47種不同的三維結構。如果氨基酸鏈是隨機摺疊的,它可能需要比宇宙的年齡還長的時間才能找到正確的蛋白質結構。但在細胞中,這個過程只需幾毫秒。那麼,氨基酸鏈是如何摺疊的呢?

安芬森的發現和萊文薩爾悖論暗示了摺疊是一個預定的過程,重要的是,關於蛋白質如何摺疊的所有信息都必須存在於氨基酸序列中。

化學的重大挑戰:預測問題

這些洞見引發了另一個決定性的認識——如果化學家知道蛋白質的氨基酸序列,他們就應該能夠預測蛋白質的三維結構。這是一個令人興奮的想法。如果成功,他們將不再需要繁瑣的X射線晶體學,可以節省大量時間。他們也將能夠生成所有X射線晶體學無法應用的蛋白質結構。

這些邏輯結論揭示了成爲生物化學領域重大挑戰的預測問題。爲了促進該領域的快速發展,1994年,研究人員啓動了一個名爲“蛋白質結構預測關鍵評估”(CASP)的項目,最終發展成爲一項競賽。每兩年,全球研究人員會獲得一些新確定結構的蛋白質氨基酸序列,但這些結構對參與者保密。挑戰是基於已知的氨基酸序列預測這些蛋白質的結構。

CASP吸引了許多研究人員,但解決預測問題證明是極其困難的。研究人員提交的預測結果與實際結構的匹配幾乎沒有改善。直到2018年,圍棋大師、神經科學專家及人工智能領域的先驅德米斯·哈薩比斯進入該領域,才迎來了突破。

棋盤大師加入蛋白質奧林匹克

我們先來簡要了解德米斯·哈薩比斯的背景:他四歲開始學棋,十三歲時已經達到大師水平。少年時期,他開啓了編程和成功的遊戲開發者生涯,隨後開始探索人工智能,並深入神經科學領域,取得了幾項革命性發現。他利用對大腦的研究,開發出更優秀的神經網絡模型。2010年,他聯合創立了DeepMind公司,開發出爲棋類遊戲設計的頂級人工智能模型。2014年,公司被谷歌收購,兩年後,DeepMind憑藉戰勝圍棋世界冠軍這一壯舉贏得了全球關注,這一成就當時被許多人視爲人工智能領域的“聖盃”。

然而,哈薩比斯的目標並不是圍棋,他將圍棋視爲開發更好人工智能模型的手段。戰勝圍棋冠軍後,他的團隊準備迎接對人類更爲重要的問題挑戰。因此,2018年,哈薩比斯報名參加了第十三屆CASP比賽。

哈薩比斯AI模型的意外勝利

在之前的幾年裡,研究人員在CASP中預測蛋白質結構的準確率最高僅爲40%。通過他們的AI模型AlphaFold,哈薩比斯的團隊達到了接近60%的準確率,並贏得了比賽。這一優異的結果讓許多人感到驚訝——這是意料之外的進展,但離成功還有一段距離。爲了真正的成功,預測準確率必須達到90%,才能與目標結構相匹配。

AlphaFold2模型如何工作

AlphaFold2的開發過程中,AI模型經過了已知的所有氨基酸序列和蛋白質結構的訓練。當遇到未知結構的氨基酸序列時,AlphaFold2會在數據庫中搜索相似的氨基酸序列和蛋白質結構。模型將所有相似的氨基酸序列對齊,通常這些序列來自不同物種,並調查哪些部分在進化過程中被保留下來。利用這些分析,AlphaFold2生成一張距離圖,估算氨基酸在結構中的相對距離。

接着,AlphaFold2探究哪些氨基酸可能在三維蛋白質結構中相互作用。相互作用的氨基酸在進化中共同演化。如果其中一個帶電荷,另一個會有相反的電荷,彼此吸引。如果其中一個被替換爲疏水性氨基酸,另一個也會變得疏水。

通過反覆迭代,AlphaFold2不斷優化序列分析和距離圖。AI模型使用稱爲transformers的神經網絡,這些網絡在大量數據中發現重要模式的能力非常強大。模型還利用步驟1中找到的其他蛋白質結構數據。AlphaFold2將所有氨基酸拼湊成一幅拼圖,測試路徑以生成假設的蛋白質結構,並重復運行這一過程。經過三輪迭代,AlphaFold2得出一個確定的結構,AI模型會計算不同部分與實際情況的匹配概率。

約翰·傑姆珀接過挑戰

哈薩比斯和他的團隊繼續開發AlphaFold模型,但無論如何努力,算法始終未能完全突破。他們陷入了困境,團隊也感到疲憊。這時,一位相對較新的員工約翰·傑姆珀提出了一些關鍵想法,幫助改進AI模型。

傑姆珀對宇宙的迷戀使他開始學習物理和數學。然而,2008年當他在一家使用超級計算機模擬蛋白質及其動態的公司工作時,他意識到物理知識可以幫助解決醫學問題。2011年,傑姆珀開始攻讀理論物理學博士學位,他開發了更簡便的模擬蛋白質動態的方法,並迅速接過了生物化學領域重大挑戰的挑戰。2017年,傑姆珀聽說谷歌DeepMind秘密開始預測蛋白質結構,他隨即申請了工作,並憑藉其蛋白質模擬經驗提供了創意,促使AlphaFold模型取得了根本性改革。

驚人的結果:AlphaFold2模型的成功

新版本的AlphaFold2受傑姆珀對蛋白質的深入瞭解影響,並且團隊開始使用最近AI領域的重大突破——transformers神經網絡。這些網絡比以往任何方法都更加靈活,能夠在大量數據中找到模式並確定實現特定目標的重點。

經過對所有已知蛋白質結構和氨基酸序列的大量數據訓練,AlphaFold2在第十四屆CASP比賽中取得了驚人的結果。2020年,CASP的組織者評估結果時意識到,生物化學界50年來的挑戰終於解決了。在大多數情況下,AlphaFold2的表現幾乎與X射線晶體學一致,這讓人們震驚。2020年12月4日,CASP的創始人之一約翰·穆爾特(John Moult)結束比賽時問道:“接下來該怎麼辦?”

回到另一個CASP參與者身上:諾貝爾化學獎的另一半

現在我們回到過去,聚焦另一位CASP參與者。讓我們介紹2024年諾貝爾化學獎的另一半,這部分獎項與從頭創造新蛋白質的藝術有關。

一本細胞學教科書讓大衛·貝克改變了方向

當大衛·貝克(David Baker)開始在哈佛大學學習時,他選擇了哲學和社會科學。然而,在一門進化生物學課程中,他遇到了如今經典的《分子生物學的細胞》一書的第一版。這本書讓他改變了人生方向。他開始探索細胞生物學,並最終對蛋白質結構產生了濃厚興趣。1993年,當他在西雅圖的華盛頓大學成爲研究組負責人時,他開始接手生物化學領域的重大挑戰。通過精巧的實驗,他開始探索蛋白質如何摺疊。這些見解爲他在20世紀90年代末期開發預測蛋白質結構的軟件“Rosetta”打下了基礎。

貝克成爲蛋白質設計師

貝克在1998年首次使用“Rosetta”參加了CASP比賽,與其他參與者相比,表現相當出色。這次成功啓發了一個新想法——貝克的團隊可以反向使用該軟件。與其將氨基酸序列輸入Rosetta並輸出蛋白質結構,他們應該能夠輸入所需的蛋白質結構,生成其氨基酸序列的建議,從而創建全新的蛋白質。

貝克實驗室的獨特蛋白質

蛋白質設計領域開始於20世紀90年代末,在這個領域中,研究人員創造具有新功能的定製蛋白質。在許多情況下,研究人員調整現有蛋白質,使其能夠執行諸如分解有害物質或作爲化學制造業工具的任務。

然而,自然界中的蛋白質種類有限。爲了增加獲得具有全新功能的蛋白質的潛力,貝克的研究團隊希望從零開始設計蛋白質。正如貝克所說:“如果你想造飛機,不應該從修改一隻鳥開始;相反,你應該瞭解空氣動力學的基本原理,並基於這些原理建造飛行機器。”

一個獨特的蛋白質誕生

完全從頭開始構建新蛋白質的領域稱爲“de novo設計”。研究小組繪製了一個全新結構的蛋白質圖,並讓Rosetta計算出哪種氨基酸序列可以生成所需的蛋白質。爲此,Rosetta搜索了所有已知蛋白質結構的數據庫,尋找與目標結構相似的蛋白質片段。然後,利用對蛋白質能量景觀的基本認識,Rosetta優化了這些片段並提出了氨基酸序列的建議。

爲了驗證軟件的成功,貝克的研究團隊將建議的氨基酸序列基因引入細菌,細菌會產生所需的蛋白質。然後,他們使用X射線晶體學確定了蛋白質結構。

結果表明,Rosetta確實能夠構建蛋白質。研究人員開發的蛋白質Top7幾乎完全符合他們設計的結構。

貝克實驗室的驚人創作

對於蛋白質設計的研究人員來說,Top7是一個驚喜。此前那些設計出來的de novo蛋白質只能模仿現有結構。而Top7的獨特結構在自然界中並不存在。此外,Top7含有93個氨基酸,比此前通過de novo設計產生的任何蛋白質都要大。

貝克在2003年發表了這一發現。這是被稱爲“非凡發展”的第一步;貝克實驗室創造出的許多壯觀的蛋白質可以在圖4中看到。他還公開了Rosetta的代碼,全球研究社區繼續開發該軟件,尋找新的應用領域。

曾經需要數年的工作,現在只需幾分鐘

當德米斯·哈薩比斯和約翰·傑姆珀確認AlphaFold2確實有效後,他們計算了所有人類蛋白質的結構。隨後,他們幾乎預測了到目前爲止研究人員已發現的所有2億種蛋白質的結構。

谷歌DeepMind還將AlphaFold2的代碼公開,任何人都可以訪問。如今,這個AI模型成爲了研究人員的寶庫。截至2024年10月,AlphaFold2已經被來自190個國家的200多萬人使用。過去,獲得蛋白質結構往往需要數年時間,有時甚至無法獲得。如今,這個過程只需幾分鐘。雖然該AI模型並非完美,但它會估算生成的結構的準確性,讓研究人員知道預測結果的可靠程度。圖5展示了AlphaFold2如何幫助研究人員的衆多示例中的一部分。

David Baker實驗室的Rosetta也受益於AI突破

在2020年CASP比賽結束後,當大衛·貝克意識到基於transformer的AI模型的潛力時,他也將其引入了Rosetta,這大大促進了de novo蛋白質設計的發展。近年來,貝克實驗室中一個接一個地創造出令人驚歎的蛋白質(圖4中展示了一部分)。

令人眩暈的發展造福人類

蛋白質作爲化學工具的驚人多樣性反映了生命的巨大多樣性。我們現在能夠如此輕鬆地可視化這些小型分子機器的結構,這令人驚歎;它讓我們能夠更好地理解生命的運作,包括某些疾病如何發展、抗生素耐藥性如何產生,或爲什麼某些微生物能夠分解塑料。

創造具有新功能的蛋白質的能力同樣令人震撼。這可以帶來新的納米材料、靶向藥物、更快速的疫苗開發、極小的傳感器和更環保的化學工業——僅舉幾例,這些應用都將極大造福人類。

接下來的展望:2024年諾貝爾化學獎的未來意義

德米斯·哈薩比斯、約翰·傑姆珀和大衛·貝克的工作展示瞭如何通過結合計算、人工智能和生物化學來解開蛋白質的奧秘。蛋白質的複雜性、以及通過智能算法快速預測或設計它們的能力,意味着未來我們有可能在醫藥、環境科學和材料科學等領域取得革命性突破。