文匯網經濟財經小米推MiMo-V2.5-Pro-UltraSpeed模式

小米推MiMo-V2.5-Pro-UltraSpeed模式

2026-06-09 17:18:16 財經

普通話
廣東話

字號

超大
大
標準
小

香港文匯報訊小米（1810）於6月8日晚上正式推出Xiaomi MiMo-V2.5-Pro-UltraSpeed模式，成為全球首個在通用GPU上推理速度突破1,000 tokens/s的萬億參數模型，刷新旗艦模型全球推理最快速度。

由即日起至6月23日，MiMo-V2-Pro-UltraSpeed模式將以申請制形式限時開放，通過申請的用戶可透過API體驗該服務。MiMo-V2.5-Pro-UltraSpeed API亦同步上線，採用限時體驗價，定價為MiMo-V2.5-Pro的3倍，同時提供約10倍的輸出速度提升；目前僅支援API體驗，不支援Token Plan。

MiMo-V2.5-Pro-UltraSpeed透過對模型推理系統進行全鏈路工程優化，在不降低模型能力的前提下，首次將推理速度提升至1,000 tokens/s，並無需訂製晶片，只需使用通用GPU即可實現。這項突破不但打破業界長期以來「快、強、通用GPU無法兼得」的限制，亦顯示小米MiMo大模型在推理工程能力方面已躋身全球第一梯隊。Xiaomi MiMo-V2.5-Pro-UltraSpeed的推出，標誌着旗艦大模型正式邁向更高推理效率階段，亦為未來更廣泛的即時應用場景提供更多可能。

過去，大模型最常見的應用場景是聊天問答。隨着Agent概念興起，大模型的角色正由「回答問題」轉向「完成任務」。無論是開發應用程式、生成代碼，抑或多個Agent協同處理複雜工作流程，背後都需要模型持續進行大量推理調用。

限制相關場景普及的關鍵，並非模型能力不足，而是推理延遲過高。當一項任務需要調用數十次甚至上百次模型推理時，每輪幾秒的等待都會不斷累積，最終影響整體回應及執行效率。

隨着MiMo-V2.5-Pro-UltraSpeed將推理速度提升至1000 tokens/s，萬億參數大模型已具備接近即時完成複雜任務的能力，智能編程、Agent協同及高頻量化交易等場景的應用門檻亦正逐步降低。

0 已點過讚

評論（0）

0 / 255

熱門搜尋：

小米推MiMo-V2.5-Pro-UltraSpeed模式