林建甫專欄》蛋白質結構預測 AI生技新突破

今年五月由 Google DeepMind 和 Isomorphic Labs 共同發表最新一代AI的蛋白質結構預測模型AlphaFold 3 ,這是生技研究的又一大突破。(示意圖/本報資料照片)

今年5月由Google DeepMind和 Isomorphic Labs共同發表最新一代AI的蛋白質結構預測模型AlphaFold 3,這是生技研究的又一大突破。

蛋白質是生命的重要分子,其捲曲摺疊會構成三維結構,據此如何與DNA、RNA、藥物受體等相互作用,是50年來探詢的難題。2020年11月,DeepMind公司發表AlphaFold 2,參與挑戰在短時間內預測出蛋白質的結構,準確度評比(Global Distance Test,GDT)高達92.4分,遠高於其他模型。當時就已經被認爲有機會成爲「結構生物學」(Structural biology)的新世代突破。

早年解析蛋白質結構的方法要高濃度與純度的蛋白質,利用X光繞射圖譜得到適合的晶體收集數據,再透過電腦運算將蛋白質晶體的繞射圖譜進行「傅立葉轉換」(Fourier transform),並模擬出三維空間的電子雲密度圖。根據得到的電子雲密度圖,以及蛋白質的胺基酸序列,推測出可能的蛋白質模型。

之後使用核磁共振(Nuclear Magnetic Resonance,NMR),利用氫原子受到周圍其他原子的影響而改變其吸收能量的頻率,可以推測氫原子周圍可能的化學基團,並預測出可能的胺基酸。核磁共振技術相較於X光晶體學的優點是不需要將蛋白質進行結晶,而是讓蛋白質在水溶液的狀態下進行,更接近生理狀態的構型。

近年,使用冷凍低溫電子顯微鏡,利用加速電子束打到不規則排列的蛋白質樣品上,電子會產生散射形成明暗不同的影像;再利用電腦將影像重疊,生成高解析度的二維影像,接着將二維組合成三維空間的立體影像。這就可以解析蛋白質、小分子化合物以及大蛋白質聚合物的結構。

AlphaFold則是透過AI辨識蛋白質摺疊可能存在的通則,從而大幅簡化了分析過程;另外,亦可結合基因序列與蛋白質資料庫的數據,透過序列比對,找出蛋白質的性質,即胺基酸之間的距離與連接胺基酸鍵結的角度。由於現在龐大的算力,甚至可以使用整段蛋白質序列進行結構預測,而不需要將蛋白質拆開成不同的片段分開預測,加深整合判斷難度。

AlphaFold 3的第一代是AlphaFold 1,在2018年推出,當時它立即展示了深度學習在蛋白質結構預測中的能力。三大貢獻包括:使用多序列比對(MSA)和共變異分析來提取蛋白質序列的特徵;之後套到模型,預測胺基酸殘基之間的距離和扭轉角,來構建蛋白質的三維結構;最後使用梯度下降法來確定符合預測距離和角度約束的蛋白質結構。

第二代的AlphaFold 2,AI主要技術進步包括:端到端深度學習模型,直接從蛋白質序列預測其三維結構,而不需要中間的特徵提取步驟,並且引入了基於Transformer 的注意力機制,使模型能夠更好地捕捉蛋白質序列中的長程依賴關係;而原來的MSA更用來捕捉序列間的共變異信息,幫助提高預測準確性。另外,也使用已知的蛋白質結構作爲模板,幫助模型更準確地預測未知蛋白質的結構。

最新的AlphaFold 3雖然在很大程度上繼承了AlphaFold 2的設計,但是在每個關鍵元件上都進行了重大調整,並且大力改進了架構和訓練過程。MSA被大幅的簡化,從而可以聚焦提取更加關鍵的進化資訊。成對殘基關係編碼器(Pairformer)取代了原有的進化特徵處理單元(Evoformer),只處理成對和單一的表徵。

因爲不再保留MSA表徵,可以把資訊通過成對錶徵模組進行傳遞,增強了複雜相互作用模式的建模能力,以及把結構生成器從以胺基酸爲中心,改爲直接預測原子座標,增加了處理通用分子結構的靈活性。在處理了輸入資料後,AlphaFold 3還會用擴散(diffusion)網路來整合預測結果,這就跟我們用AI來生成圖片的原理是一樣的。

由於這些進展,AlphaFold 3能夠爲生物科學研究開闢了新的道路,未來將可加速藥物設計與基因研究,也可開發生物可再生材料、更具抵抗力的農作物。這對於生技產業將有大利多。(作者爲中信金控首席經濟學家、中信金融管理學院講座教授)