
香港文匯報訊(記者 周曉菁)國際大模型競技場LMArena最新榜單顯示,騰訊混元圖像3.0發布僅一周,在全球26款模型的用戶盲測中位居第一,被評為最佳綜合文生圖模型,超過了谷歌的Nano Banana。騰訊混元團隊透露,混元圖像3.0目前版本已開放了文生圖能力,圖生圖、圖像編輯、多輪交互等版本將於後續發布。
混元圖像3.0在9月28日發布並開源,是首個開源工業級原生多模態生圖模型,也是目前效果最好的開源生圖模型。混元圖像3.0具備常識並能夠利用知識進行推理;同時語義理解準確度高,並具備極致美學質感,能生成真實的高質感圖片;支持中英文文字生成,長文本文字渲染等。簡而言之,它不僅語義理解精準,更能生成具備極致美學質感的高清圖片,為AI繪畫樹立了新標杆。
能生成生動有趣科普插畫
最令人驚艷的是其實用性。該模型不僅能生成複雜文本、複雜漫畫、表情包,還能生成生動有趣的科普插畫。由於現時本港正值國慶黃金周,香港文匯報記者實測,只需輸入指令「生成一個香港黃金周的四格科普漫畫,字要繁體」,僅等候約一分鐘,四幅風格各異的科普漫畫便一氣呵成,供用家選擇(詳見另圖)。過程更無需使用者逐格描述內容,意味過去需要數小時的創作,如今只需幾分鐘即可完成,這種效率對插畫師、設計師等視覺創作者堪稱革命性突破。
3D系列模型下載量逾260萬
團隊指出,多模態正成為混元大模型的核心競爭力之一,混元3D與圖像生成模型均處於行業頂尖水平。混元目前已形成語言、圖像、視頻、3D模型的多尺寸、多模態開源矩陣,提供接近商業模型性能的開源基座。圖像、視頻衍生模型數量總數達到3,000個,混元3D系列模型社區下載量超過260萬,是全球最受歡迎的3D開源模型之一。
據悉,LMArena是美國加州大學伯克利分校推出的創新AI模型評估平台,評測核心方法是基於人類真實偏好的「盲測」機制,讓用戶對不同AI模型的回答進行匿名投票,衡量模型的表現。用戶輸入問題後,平台提供兩個模型的回答,用戶根據偏好選擇更優答案,投票結果直接塑造公共排行榜。由於該平台訪問量巨大,並且評測機制貼近實際體驗,是目前國際上最權威的競技場榜單。

0 / 255