為什麼不同生物在適應相似環境時,會獨立演化出相似的功能?一項最新研究從蛋白質的「高階特徵」層面揭示了這一生命演化奧秘的重要機制。
這項研究由中國科學院動物研究所鄒徵廷研究員團隊完成,成功利用人工智能領域的蛋白語言模型,揭示了蛋白高階特徵在功能適應性趨同演化中的關鍵作用,為理解生命演化之謎提供了新視角。相關成果已於近日發表於國際學術期刊《美國國家科學院院刊》。
「高階特徵」破解傳統研究局限
趨同演化是自然界中一種引人入勝的現象。蝙蝠與齒鯨本是演化上差異巨大的生物類群,卻都獨立發展出了通過回聲定位感知環境的能力。長久以來,科學家們致力於探索這類表型趨同背後的分子機制。
傳統研究方法主要聚焦於蛋白質序列中單個氨基酸位點的趨同變化。然而,越來越多的證據表明,即使沒有明確的位點趨同,同源蛋白仍可能通過高階結構或理化特徵的趨同演化實現功能上的相似性。
「這就像用不同的磚塊砌出結構相似的牆。」研究團隊成員解釋,「雖然組成的氨基酸可能不同,但蛋白質整體的物理化學性質和結構卻可以趨向一致,從而實現相似功能。」
人工智能助力科學發現
面對這一科學難題,鄒徵廷團隊提出了名為「ACEP」的計算分析框架。該框架的核心創新在於利用了預訓練蛋白語言模型。
這類語言模型在海量蛋白序列數據上進行預訓練,使其能夠捕捉序列中複雜的上下文信息和高階特徵,將蛋白序列轉化為包含豐富演化信息的高維嵌入向量。
「蛋白語言模型是能『讀懂』蛋白質『語法』的人工智能,它能理解氨基酸序列背後更深層次的蛋白結構功能特徵和規律。」研究人員介紹。
ACEP分析流程包括三個關鍵步驟:首先計算目標類群同源蛋白嵌入向量的真實距離,然後通過模擬中性演化過程構建背景距離分布,最後基於分布對真實距離進行統計檢驗,判斷是否存在顯著的高階特徵趨同信號。
全面分析驗證方法有效性
為驗證ACEP框架的有效性,研究團隊對真實蛋白數據進行了全面的計算分析。在已知的經典案例中,如在回聲定位哺乳動物的Prestin蛋白和景天酸代謝植物的PEPC/PPCK蛋白上,ACEP均檢測到了顯著的高階特徵趨同信號。
更令人振奮的是,全基因組篩選結果顯示,ACEP在蝙蝠與齒鯨中識別出數百個具有趨同信號的候選基因。功能富集分析表明,其中部分基因顯著關聯「感官感知」等與回聲定位密切相關的功能條目。
這些基因不僅包含已知的回聲定位基因,還發現了多個新候選基因。部分候選基因還得到了正選擇檢驗的支持,增強了其發生適應性趨同的可信度。

推動演化生物學研究範式轉變
該研究首次系統揭示了蛋白高階特徵趨同是適應性演化的重要機制,突破了傳統方法僅關注氨基酸位點趨同的局限。
「這項工作不僅深化了對生命演化規律的認識,也展示了人工智能技術在解析複雜生物問題方面的強大潛力。我們希望未來能實現人工智能技術在演化生物學中更廣泛、有效的應用。」鄒徵廷研究員表示。
ACEP框架為在全基因組水平系統挖掘基因的複雜適應性趨同模式提供了新工具。專家認為,這一方法論突破為理解生物適應性演化的分子基礎開闢了新方向,並將參與推動演化生物學研究範式的轉變。研究成果對生物醫學、生態學等領域也具有重要的啟示意義。
研究獲得國家自然科學基金和中國科學院戰略性先導科技專項等支持。目前,ACEP分析框架的代碼已在HuggingFace平台開源共享,供全球科研界使用。
(來源:新華社)
0 / 255