在第二十屆國際基因組學大會上,華大生命科學研究院與之江實驗室聯合發布了百億參數人類基因組通用基礎模型——Genos。這一針對人類基因組深度優化的基因組基礎模型,可支持高達百萬鹼基對的超長上下文分析,並實現單鹼基分辨率的精準識別。
據人民日報海外版10月27日報道,Genos的推出標誌着基因組研究從「讀出」鹼基序列邁向「讀懂」生命底層邏輯,有望促進臨床疾病診斷、個人基因組解讀及前沿科學研究。
要讀懂「生命之書」,首先需要一本完整的「字典」
基因組學領域內的現有模型大多基於一到兩個參考基因組進行訓練,難以捕捉人類豐富的遺傳多樣性。而Genos則系統整合了人類泛基因組參考聯盟、人類基因組結構變異圖譜計劃等多個公開資源,匯聚了全球範圍內636個「端粒到端粒」級別的高質量人類基因組作為訓練數據。這些數據覆蓋了全球不同人群,旨在從源頭減少數據偏見,更全面地代表人類遺傳多樣性。
基因組的語言極其複雜,一個微小的單鹼基突變,其影響可能由百萬鹼基之外的「遙遠」調控元件決定。這要求模型既要有「顯微鏡」般的單鹼基精度,又要有「廣角鏡」般的百萬級超長上下文理解能力。
如同閱讀一部鴻篇巨著,既能一字不差地記住細節,又能洞悉全局的宏大敘事。Genos通過混合專家(MoE)架構,助力解決這一難題。MoE架構如同一個擁有眾多頂尖專家的智慧團隊,面對任務時,總能精準調度最相關的幾位專家協同處理,而不是調動所有人全部待命。這一「按需激活」的機制,讓Genos在擁有百億級參數的龐大知識總量的同時,推理成本和資源消耗卻遠低於同等規模的模型,真正實現了「既強大,又好用」。
為了全面驗證模型的性能,研發團隊進行了一系列測試。在基因組元件識別、遠程調控預測、突變致病性預測等經典評測任務裏,Genos在超過一半的任務裏比所有現有模型都表現更好,而且長序列評測任務裏,如突變熱點識別和族群分類上,Genos的表現遠超同類模型,展現了其強大的上下文分析能力,有效破譯基因組中的「暗物質」。
Genos在直接面向臨床應用的致病性突變解讀任務中,實現了較高的準確性,當結合021科學基礎模型後,準確率更高,為臨床診斷提供了全新的高效工具。綜合多項評測結果,Genos在各項核心任務中的表現優越,證明了其全面的能力。
「共有、共為、共享」,讓前沿科技觸手可及
一個模型無論多麼強大,如果不能被方便地部署和使用,其價值便大打折扣。Genos是一個可以走向臨床、走向個人、走向每一個實驗室的「實踐先鋒」,為下游應用創新提供了堅實的地基。
今年是人類基因組草圖繪製完成25周年。「共有、共為、共享」,既是人類基因組計劃的精神傳承,也是Genos的核心理念。
發布會上,華大生命科學研究院宣布,Genos模型將全面開源開放,且同時提供12億和100億參數兩個版本,滿足不同應用場景的需求。目前,兩個版本的模型權重、架構細節與完整訓練流程,均已在GitHub、Hugging Face、魔搭等平台公開發布,供全球開發者和科研人員自由使用。同時,在之江實驗室的開放平台Zero2X也已發布。
另外,考慮到並非所有使用者都擁有強大的算力資源,該模型已被深度整合進DCS Cloud雲平台。用戶無需進行複雜的安裝配置,即可一鍵調用Genos,平台為每個賬戶提供了高達10萬次的免費推理服務,極大地降低了基因組智能分析的門檻。
目前,在科研領域,Genos模型通過與DCS cloud結合,能僅憑DNA序列「秒級」預測RNA表達譜,將過去數周甚至數月才能完成的生物信息分析流程極大提速。此外,Genos模型也已整合進生命科學數據庫CNGBdb,可幫助用戶精準預測細胞表達量,高效篩選和驗證關鍵候選基因,大幅加速科研發現。

0 / 255