香港文匯報訊(記者 黎梓田)即時語音視頻中文測評基準SuperCLUE-Live首測結果出爐,商湯科技的日日新融合大模型交互版(SenseNova-5o,「日日新5o」)以總分68.59排名國內第一,在現時最熱門的即時語音視頻互動領域位居榜首。在基礎認知能力方面,「日日新5o」以77分超越ChatGPT的70.5分排名第一。
商湯表示,SuperCLUE-Live是中國首個音視頻評測基準,前瞻性面向新一代即時語音視頻交互產品的綜合能力。值得一提的是,綜合能力指語音+視頻的綜合能力,並非單獨針對語音/視頻的綜合能力。
「日日新5o」採用原生融合的方式,深度融合了視頻、圖片、語音和文本等模態,並結合多模態交錯數據聯合訓練。因此,「日日新5o」可以實現對多模態信息的感知和理解及記憶。同時,通過結合即時的RTC網絡,可以提供即時的語音視頻互動體驗。
基礎認知能力方面,「日日新5o」以77分超越ChatGPT的70.5分排名第一,SuperCLUE報告顯示,在實際測評中「日日新5o」識別物體準確性方面優於ChatGPT。在商湯「日日新」融合大模型訓練過程中,由訓練採樣的數據範圍(domain)場景覆蓋極為豐富,具備足夠的多樣性(diversity),通過結合視頻及圖片文本的交錯數據進行融合後訓練,確保了模型對於各類場景及物體,都具備強大的理解和識別能力。
目前,商湯已就「日日新5o」與超過50家企業客戶展開商務溝通,將模型技術和場景深度結合,實現交互優化,不斷提升用戶體驗。
評論成功,請等待管理員審核...

評論(0)
0 / 255