香港文匯報訊(記者 楊梓穎)隨着人工智能模型訓練、大數據分析及智能設備廣泛應用,全球數據量急增,傳統硬碟及雲端存儲面臨成本高、容量受限、耗電量大及壽命較短等問題。香港理工大學研究團隊提出以工程化蛋白質作為數據存儲載體,並首次在從頭設計的人工蛋白中,實現由數據寫入至讀取的完整流程,為AI時代下的大規模、可持續數據存儲提供新方向。
這項跨學科研究由理大應用生物及化學科技學系副系主任及教授姚鍾平率領,涵蓋蛋白質工程、合成生物學、生物化學、分析化學及計算機科學等領域。團隊成員包括同系助理教授(研究)伍卓知,以及工程學院副院長(環球事務)兼電機及電子工程學系教授劉重明等。該研究獲香港研究資助局「協作研究金」及「研究影響基金」資助。研究成果已刊載於國際期刊《自然通訊》。
現時所有文字、圖像及影片等數碼檔案,最終都以0和1組成的位元串形式儲存。分子存儲技術的原理,是把位元資訊轉換成分子單體序列,再透過測序技術讀回數據。DNA是目前較常見的分子存儲載體,但由於只由四種核苷酸組成,存儲容量較低,亦較易降解。姚鍾平團隊早前曾開發以多肽作為載體的技術,利用氨基酸種類多、穩定性高的優勢,提高存儲容量,但受制於分子鏈較短,存儲效率有限,且主要依賴化學合成,成本較高。
相比之下,蛋白質具有更長的氨基酸鏈,可提供更高的存儲效率與容量,亦可透過細菌或動物細胞表達,大規模、低成本製造攜帶數據的蛋白質,並能以粉末或溶液形式在不同環境下穩定保存。不過,蛋白質存儲亦面對兩大挑戰:一是攜數據蛋白的氨基酸序列高度隨機,容易影響其穩定性及溶解度,令設計與製備難度大增;二是若要讀回數據,必須將整條蛋白序列精準地從頭解析,技術要求遠高於一般蛋白質鑑定。
為解決問題,團隊參考可長時間保存的天然蛋白膠原蛋白的序列特徵,設計出具穩定性和抗降解能力的蛋白模板作為「骨架」,再把由多個檔案編碼而成的氨基酸序列嵌入其中,並成功利用大腸桿菌表達出攜數據蛋白質。
在數據讀取方面,研究人員利用液相色譜串聯質譜,將蛋白分解後所得肽段分離及測序,再配合自行開發的演算法軟件,重建完整氨基酸序列,成功把蛋白質還原為位元串。同時,團隊加入糾錯編碼,以修復測序過程中的少量誤差,提升讀取效率與準確度。
團隊指出,與過往的多肽技術相比,今次蛋白質方案在多方面顯著提升。姚鍾平表示,研究中的蛋白樣本存儲密度達多肽技術30倍,而成本僅約其一成;此外,DNA在溶液和強酸等條件下會快速降解,但蛋白樣本在相當長時間後仍可正確讀取數據,顯示出極高穩定性。
研究團隊亦進一步設計功能化蛋白,實現隨機存取及數據加密。團隊在攜帶目標內容的蛋白中加入親和標籤,並在純化過程中利用相應抗體捕捉目標蛋白,從而在多組數據中讀取特定內容;又以此技術存儲秘密訊息,證明只有使用正確親和性化合物,才能成功讀取資料。
姚鍾平表示,蛋白質具穩定、易保存及高存儲容量等特性,極具潛力成為長期大規模數據存儲載體,其良好生物相容性亦為將數據存儲於活體生物內開拓新方向。團隊下一步將進一步提升存儲容量及資料讀寫速度、降低生產成本,並設計更多蛋白模板,拓展相關技術功能。

評論(0)
0 / 255