中國信息通信研究院頒發大模型推理能力評估證書。(受訪者供圖)

(香港文匯網記者 羅洪嘯 北京報道)中國信息通信研究院20日在京發布首個大模型推理能力評估結果,百度文心X1 Turbo在24項能力評估中,16項達5分、7項達4分、1項達3分,綜合評級獲當前最高級「4+級」,成為國內首款通過該測評的大模型。文心X1 Turbo邏輯推理、代碼推理、推理效果優化等技術能力及工具支持度、安全可靠度等應用能力均獲得滿分。

中國信息通信研究院人工智能研究所平台與工程化部主任曹峰表示,2024年人工智能能力持續進化,在多任務語言理解、競賽級數學、博士級科學問題等之前具有挑戰性的基準測試中超越了人類的表現。評估結果表明,文心X1 Turbo擅長結構化的邏輯思考,並具備平衡模型能力與效率的優化技術,其有效的數據機制保障了模型的可信及可用程度,其推理服務能廣泛支持各類應用。文心X1 Turbo強化推理泛化能力,拓寬工具鏈應用生態,加強安全機制建設,構築可信應用保障壁壘。

百度集團副總裁吳甜指出,文心大模型4.5是多模態基礎大模型,文心4.5 Turbo源自文心4.5,效果更好、成本更低;基於文心4.5 Turbo,文心X1升級到X1 Turbo,性能提升的同時,具備更先進的思維鏈,問答、創作、邏輯推理、工具調用和多模態能力進一步增強。

吳甜也指出,大模型的能力進一步拓展、效率進一步提升之後,可以探索更前瞻、更有想像力的創新應用。以數字人為例,超擬真數字人需要具備出色的表現力、吸引人的內容、數字人與場景、物品的互動等,需要綜合運用多模態AI技術。百度研製了「劇本」驅動多模協同的超擬真數字人技術,實現了語言、聲音、形象的協調一致。

據悉,目前這套技術已經支持超過10萬數字人主播,直播轉化率達31%,降低80%直播開播成本。在代碼場景上,基於文心大模型的語言和代碼能力,百度研製了代碼智能體和智能代碼助手——文心快碼。百度每天新增的代碼中,文心快碼生成的代碼佔比已超過40%。截至目前,文心快碼向全社會開放,累計服務760萬開發者。

責任編輯: 何雪沫