(香港文匯網記者 郭若溪)10月23日,在第二十屆國際基因組學大會(ICG-20)上,華大生命科學研究院與之江實驗室聯合發布全球首個百億參數人類基因組通用基礎模型Genos。該模型針對人類基因組優化,支持百萬鹼基對超長上下文分析,能實現單鹼基分辨率精準識別,相關成果已發表於《GigaScience》。
Genos標誌着基因組研究從「讀出」鹼基序列轉向「讀懂」生命底層邏輯,有望推動臨床疾病診斷、個人基因組解讀及科研突破。
現有基因組學模型多基於1-2個參考基因組訓練,難捕捉人類遺傳多樣性。Genos整合人類泛基因組參考聯盟(HPRC)、人類基因組結構變異圖譜計劃(HGSVC)等資源,以全球636個「端粒到端粒」(T2T)級高質量人類基因組為訓練數據,覆蓋不同人群,減少數據偏見。
基因組語言複雜,單鹼基突變影響或由百萬鹼基外調控元件決定,需模型兼具單鹼基精度與百萬級上下文理解能力。Genos藉助混合專家(MoE)架構,像調度專業團隊般「按需激活」專家處理任務,在擁有百億級參數的同時,降低推理成本與資源消耗。
測試顯示,Genos在基因組元件識別、遠程調控預測等超半數任務中表現優於現有模型,長序列任務中優勢更顯著;臨床致病性突變解讀準確率達92%,結合021科學基礎模型後升至98.3%,全面超越現有最佳水平(SOTA)。
共有、共為、共享,讓前沿科技觸手可及
當前全球基因組學領域缺乏可直接部署的百億級人類基因組基礎大模型,Genos填補此空白,為下游應用創新奠基。
今年是人類基因組草圖繪製完成25周年,Genos傳承「共有、共為、共享」理念,全面開源12億和100億參數兩個版本,模型權重、架構細節等已在GitHub、Hugging Face等平台依MIT協議發布,也登陸之江實驗室Zero2X平台。
考慮到算力限制,Genos整合進DCS Cloud雲平台,用戶無需複雜配置即可一鍵調用,平台還提供10萬次免費推理服務,降低使用門檻。
科研中,Genos結合DCS Cloud可「秒級」預測RNA表達譜,提速生物信息分析;還整合進CNGBdb數據庫,助力細胞表達量預測與關鍵候選基因篩選。臨床領域,其與GeneT模型結合,可為遺傳疾病診斷提供多模態解讀;個人健康領域,已整合進BGE平台,賦能個人基因組報告解讀。
Genos源自華大生命科學研究院與之江實驗室「大模型種子班」,該團隊融合生物信息與計算科學人才,以問題導向實訓、任務驅動創新,推動生命科學研究向「智能湧現」邁進。
Genos發布開啟基因組智能分析新時代。華大生命科學研究院近期聯合多方發起「十萬長讀長大人群聯盟(Long100K Genomes Consortium)」與「百億細胞計劃(10BC)」,前者將用Cyclone長讀長測序技術完成10萬人T2T級基因組測序,後者依託Stereo-Cell技術完成百億細胞測序,為生命科學基礎模型開發提供數據支撐。

0 / 255