文匯網神州首個人工智能大模型推理能力評估結果出爐　百度文心多項滿分

首個人工智能大模型推理能力評估結果出爐　百度文心多項滿分

2025-05-21 20:03:45 神州

普通話
廣東話

字號

超大
大
標準
小

（香港文匯網記者羅洪嘯北京報道）中國信息通信研究院20日在京發布首個大模型推理能力評估結果，百度文心X1 Turbo在24項能力評估中，16項達5分、7項達4分、1項達3分，綜合評級獲當前最高級「4+級」，成為國內首款通過該測評的大模型。文心X1 Turbo邏輯推理、代碼推理、推理效果優化等技術能力及工具支持度、安全可靠度等應用能力均獲得滿分。

中國信息通信研究院人工智能研究所平台與工程化部主任曹峰表示，2024年人工智能能力持續進化，在多任務語言理解、競賽級數學、博士級科學問題等之前具有挑戰性的基準測試中超越了人類的表現。評估結果表明，文心X1 Turbo擅長結構化的邏輯思考，並具備平衡模型能力與效率的優化技術，其有效的數據機制保障了模型的可信及可用程度，其推理服務能廣泛支持各類應用。文心X1 Turbo強化推理泛化能力，拓寬工具鏈應用生態，加強安全機制建設，構築可信應用保障壁壘。

百度集團副總裁吳甜指出，文心大模型4.5是多模態基礎大模型，文心4.5 Turbo源自文心4.5，效果更好、成本更低；基於文心4.5 Turbo，文心X1升級到X1 Turbo，性能提升的同時，具備更先進的思維鏈，問答、創作、邏輯推理、工具調用和多模態能力進一步增強。

吳甜也指出，大模型的能力進一步拓展、效率進一步提升之後，可以探索更前瞻、更有想像力的創新應用。以數字人為例，超擬真數字人需要具備出色的表現力、吸引人的內容、數字人與場景、物品的互動等，需要綜合運用多模態AI技術。百度研製了「劇本」驅動多模協同的超擬真數字人技術，實現了語言、聲音、形象的協調一致。

據悉，目前這套技術已經支持超過10萬數字人主播，直播轉化率達31%，降低80%直播開播成本。在代碼場景上，基於文心大模型的語言和代碼能力，百度研製了代碼智能體和智能代碼助手——文心快碼。百度每天新增的代碼中，文心快碼生成的代碼佔比已超過40%。截至目前，文心快碼向全社會開放，累計服務760萬開發者。

責任編輯：何雪沫

0 已點過讚

評論（0）

0 / 255

熱門搜尋：

首個人工智能大模型推理能力評估結果出爐 百度文心多項滿分

首個人工智能大模型推理能力評估結果出爐　百度文心多項滿分