美國科技巨頭谷歌旗下人工智能(AI)公司研發的AlphaFold系統已被用於解析新冠病毒。(網絡圖片)

據大公報援引外媒報道,11月30日,美國科技巨頭谷歌旗下人工智能(AI)公司DeepMind宣布,他們研發的AlphaFold系統在最新一屆國際蛋白質結構預測競賽CASP14上擊敗所有對手,證明自己能夠基於氨基酸序列,快速、精確預測蛋白質3D結構。這意味着該款AI系統,很大程度上解決了困擾全球科學家近50年的蛋白質摺疊問題,將推動醫學進步。AlphaFold已被用於解析新冠病毒。

絕大多數生理機能都與蛋白質息息相關,而每個蛋白質因自身氨基酸鏈摺疊形成的獨特3D結構,決定其具體作用。如何破解這一結構,就是蛋白質摺疊問題。1972年,諾貝爾化學獎得主安芬森在獲獎感言中提出著名假設,即「蛋白質的氨基酸序列應完全決定其結構」,引領了科學界此後近50年的研究方向。

安芬森假設面臨的主要挑戰,是蛋白質形成最終結構前,可能有無數種摺疊方式。使用現有的X射線晶體學技術、低溫電子顯微鏡等解析蛋白質結構,需花費數月、數年甚至數十年時間。而最新版AlphaFold系統,只需提供氨基酸序列,就可在數日內得出高度精確的預測結構。CASP聯合創始人莫爾特教授表示,在很大程度上,蛋白質摺疊問題得到了解決。

成功預測新冠蛋白結構

AlphaFold在蛋白質摺疊問題上取得的突破,為生物學家打開了一扇新的大門。從胰島素如何控制血糖水平,到抗體如何對抗新冠病毒,都由相應蛋白質結構決定。包括癌症在內的幾乎所有疾病,都與細胞內蛋白質結構變化有關。因此,AlphaFold對蛋白質結構快速、精確的預測,將促進人類對細胞組成部分的理解,並對疾病預防和治療、新藥研發等帶來重大影響。

冠狀病毒的構成,包括可結合人體細胞受體的刺突糖蛋白、包裹病毒遺傳物質的包膜蛋白、膜蛋白、核衣殼蛋白等。解析這些蛋白的3D結構,對了解新冠病毒致病機理及確定治療方案具有重要意義。3月起,DeepMind就陸續發布AlphaFold對一些新冠病毒蛋白的結構預測,包括此前未知的ORF3a蛋白。在CASP14比賽中,該系統又預測了另一個新冠病毒蛋白ORF8的結構。該系統對這兩個蛋白的預測均被證實相當準確。

平均誤差僅為0.16納米

在自然界,由氨基酸鏈組成的蛋白質,可自發摺疊成無數令人難以想像的形狀。為解析這一過程,DeepMind研究人員使用包含約17萬個蛋白質序列及其結構的公共數據庫,對AlphaFold算法進行訓練。2018年,初版AlphaFold參加CASP13並獲得優勝。今年,新版AlphaFold在CASP14擊敗來自全球的約100個團隊,使蛋白質結構預測達到前所未有的精確度。

CASP衡量預測準確性的主要指標是全局距離測試(GDT)得分,範圍從0至100。新版AlphaFold總體得分中位數高達92.4,意味着預測平均誤差僅為0.16納米,相當於一個原子的直徑。在測試給出的近100個蛋白靶點中,該系統對三分之二靶點給出的預測結構,與通過傳統實驗手段得到的相差無幾。即便是在難度最高的自由建模分類中,該系統得分中位數也高達87,刷新2018年初版創下的近60分的紀錄。在AlphaFold問世之前,各種方式的準確性得分中位數從未超過50。但DeepMind公司承認系統仍有很多預測不準的情況,需要繼續改進。

責任編輯: 潘若水