華科大幾何三角形感知蛋白質語言模型,預測蛋白質-蛋白質接觸

編輯 | 蘿蔔皮

有關相互作用蛋白質之間的殘基-殘基距離的信息對於蛋白質複合物的結構建模非常重要,並且對於理解蛋白質-蛋白質相互作用的分子機制也很有價值。

隨着深度學習的出現,人們開發了許多方法來準確預測單體的蛋白質內殘基-殘基接觸。然而,準確預測蛋白質複合物,尤其是異源蛋白質複合物的蛋白質間殘基-殘基接觸仍然具有挑戰性。

華中科技大學的研究人員開發了一種基於蛋白質語言模型的深度學習方法,通過在深度神經網絡中引入三角形更新和三角形自注意力的三角形感知機制來預測蛋白質複合物的蛋白質間殘基-殘基接觸(稱爲 DeepInter)。

該研究以「Protein–protein contact prediction by geometric triangle-aware protein language models」爲題,於 2023 年 10 月 19 日發佈在《Nature Machine Intelligence》。

蛋白質通過與其他分子相互作用或組裝形成對稱同源寡聚物來發揮其功能。闡明覆雜結構的界面是理解其生物學功能的基本步驟。然而,四級蛋白質結構的預測仍然是一個長期存在的挑戰。鑑於實驗結構測定的低通量和高成本,計算方法已成爲預測單體和複合物的蛋白質結構的有價值的方法。

近期,AlphaFold2 被提出作爲一種端到端的深度學習架構來直接預測單體的結構。雖然AlphaFold2預測的結構的準確性在許多單體情況下可以與實驗相媲美,但它在蛋白質複合物的結構預測方面還遠未達到可比的準確性。因此,仍然非常需要開發進一步的計算方法來預測蛋白質-蛋白質相互作用。

蛋白質間殘基-殘基接觸預測在需要關鍵界面信息的蛋白質複雜結構預測中起着重要作用。鑑於界面相互作用的重要性,科學家已經開發了各種基於深度學習的方法來預測蛋白質間接觸和蛋白質-蛋白質相互作用。

與利用基於多重序列比對(MSA)的直接耦合分析(DCA)的共同進化數據進行的蛋白質內接觸預測相比,先進的蛋白質間接觸預測利用蛋白質語言模型的優勢來捕獲蛋白質間相互作用並提高性能。

然而,這些方法的性能取決於 MSA 提供的同源性。對於蛋白質間接觸預測,需要進行配對MSA(interlogs)——這是一個主要的瓶頸和挑戰。儘管有多種方法可將來自複合體不同單體的 MSA 配對,包括基於基因組、基於系統發育和基於塊對角線的方法,但準確預測界面接觸仍然很困難。

目前蛋白質間接觸預測的方法有一些侷限性。首先,現有的蛋白質間接觸預測的主流框架主要基於殘差卷積網絡,其只能捕獲局部特徵。其次,這些方法的預測接觸圖具有很大的幾何不一致,違反了三角不等式。第三,一些方法直接利用二維(2D)特徵矩陣上的注意力機制,僅考慮每對殘基的相互作用。

爲了克服這些限制,華中科技大學的研究團隊開發了一種基於深度學習的蛋白質複合物的蛋白質間接觸預測方法——DeepInter,通過應用預先訓練的蛋白質語言模型生成的隱藏特徵並利用三角形感知模塊。

圖示:DeepInter的框架。(來源:論文)

DeepInter 在網絡中引入了 ResNet-Inception 模塊來處理蛋白質內特徵;這可以通過增加有效感受野來有效捕獲殘基對之間的長程相互作用。

該團隊在 300 個同二聚體、28 個 CASP-CAPRI 同二聚體和 99 個異二聚體複合物的不同測試集上廣泛驗證了 DeepInter,並將其與最先進的方法(包括 CDPred、DeepHomo2.0、GLINTER 和 DeepHomo)進行了比較。與現有方法相比,DeepInter 在同二聚體和異二聚體的不同測試集上提供了顯著的性能改進。

與其他先進方法相比,DeepInter 正確預測了蛋白質間接觸,並在兩個不同的同二聚體測試集和一個異二聚體測試集上的幾乎所有指標上實現了最佳性能。通過消融實驗表明,這些改進主要是由 ESM-MSA-1b 功能和三角形感知模塊貢獻的。

前者在大型序列數據上進行訓練,交錯行和列注意力以提取殘基-殘基相互作用。後者在對錶示上應用注意機制,通過滿足幾何三角不等式來考慮多體效應。對 MSA 深度和界面接觸密度的進一步分析表明,對於相互作用界面較小、同源性較少的硬二聚體,DeepInter 可以比其他方法獲得更高的精度。

在進一步的開發中,預測的蛋白質間接觸可用於複合物的結構建模,例如,在蛋白質-蛋白質對接和梯度下降優化中。DeepInter 的架構可以進一步改進,以用於高階寡聚複合物的蛋白質間接觸。此外,該架構還可以適用於預測殘基-殘基距離圖,與 AlphaFold2 或 AlphaFold-Multimer 一起工作以改進複雜結構預測。未來的方向也可能是預測蛋白質的寡聚狀態,這是該領域仍然懸而未決的關鍵問題。

儘管 DeepInter 目前取得了成功,但仍然存在一些侷限性,可以在未來的工作中得到改進。首先,因爲研究人員使用了 ESM-MSA-1b 模型生成的 MSA 表示和注意力矩陣,所以二聚體的最大序列長度限制爲 1,024。這意味着 DeepInter 無法預測極大的異質複合物的蛋白質間接觸。其次,一些具有小界面的大蛋白質複合物很難用 DeepInter 和現有的預測器正確預測。第三,預測結構的質量會影響基於結構的方法的精度。

最後,蛋白質的較大構象變化將對性能產生重大影響。在未來的工作中,該團隊可能會使用大型編碼器模型的結構表示來增強預測器的穩健性,並進一步改進該網絡來預測異質複合物的多鏈接觸。

論文鏈接:https://www.nature.com/articles/s42256-023-00741-2