熱門搜尋:

數據處理更高效 國產類腦脈衝大模型新突破

2025-09-09 04:44:15 內地

香港文匯報訊(記者 劉凝哲 北京報道)日前,中國科學院自動化研究所李國齊、徐波團隊與國產GPU企業合作,成功研發出類腦脈衝大模型「瞬悉1.0」(SpikingBrain-1.0)。該模型基於「內生複雜性」理論構建,在國產GPU沐曦MetaX平台上完成全流程訓練與推理,顯著提升了大模型高效處理極長文本或數據序列的效率和速度,展示出構建國產自主可控的新型(非Transformer)大模型架構生態的可行性。「瞬悉1.0」在多個核心性能上實現突破,僅需約主流模型2%的數據量,就能在多項語言理解和推理任務中達到媲美眾多主流模型的性能。

「瞬悉1.0」推理效率數量級提升

當前,DeepSeek、ChatGPT等中外主流大模型均採用Transformer架構,而「瞬悉1.0」則借鑒大腦神經元內部工作機制,清晰地展示了一條不斷提升模型複雜度和性能的新型可行路徑。李國齊研究員向香港文匯報表示,「『瞬悉1.0』基於一種新的類腦原理,可以把對話歷史進行壓縮和提煉,在超長對話場景下依然保持很快的響應速度。」與此同時,「瞬悉1.0」採用脈衝驅動機制,只有在需要的時候才會觸發計算,所以能耗會根據實際情況動態變化。這需要專門的硬件支持,但帶來的好處是能效比大幅提升。

「從用戶體驗的角度來看,兩種架構最大的差別體現在長輸入和長輸出的體驗上,在同樣的超長對話中,『瞬悉1.0』 能夠更快響應、更流暢交互,同時在移動端或低功耗設備上更節能。」李國齊表示。

值得一提的是,「瞬悉1.0」在多個核心性能上實現突破。第一,極低數據量上的高效訓練,以約為主流大模型2%的預訓練數據量實現與眾多開源Transformer模型在多任務語言理解,中文多任務語言理解,常識推理能力任務上相媲美的性能;第二,推理效率的數量級提升,推理階段結合脈衝神經元事件驅動特性,在超長序列處理能力上展現出數量級的效率和速度提升。

構建自主可控類腦大模型生態

此外,「瞬悉1.0」完成國產自主可控類腦大模型生態的構建。「瞬悉」適配了面向國產GPU集群的高效訓練和推理框架、Triton算子庫、模型並行策略以及集群通信原語,表明了構建國產自主可控的新型非Transformer大模型架構生態的可行性,並為低功耗的類腦大模型運行提供有力支撐。

當前國際形勢背景下,GPU芯片進口面臨「卡脖子」等困境,如何實現人工智能的自主可控是事關安全發展的問題。「瞬悉1.0」是中國首次提出大規模類腦線性基礎模型架構、並首次在國產GPU算力集群上構建類腦脈衝大模型的訓練和推理框架。李國齊表示,國產GPU算力集群目前已經可以完成新型大模型全參預訓練,以及適配訓練+推理框架的完整性任務,性能已完全達到應用要求。「未來可以在大模型訓練及推理領域實現全自主可控商業化閉環,也期待實現更高比例的進口替代。」

讀文匯報PDF版面
評論(0

0 / 800

相關推薦
評論成功,請等待管理員審核...