
香港文匯報訊(記者 高鈺)不少人工智能(AI)模型在理解長視頻時會出現困難,香港理工大學團隊開發出多模態智能體VideoMind,通過模仿人類思考過程,可以理解長視頻,並回答內容提問,系統結合創新的鏈式低秩適應(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動生成式AI於視頻分析的商業化應用。
15分鐘以上長視頻不單純是疊加的靜態畫面,當中涉及事件發生時序、前因後果、連貫性及場景轉換等。AI模型要理解視頻,要識別當中的事物,還要兼顧時間維度的訊息,即事物如何隨時間變化,需要消耗龐大算力和記憶體。
設「四角色」分工解題 降本增效
理大計算機及數學科學學院暫任院長陳長汶的團隊致力開發VideoMind框架,框架內的四個角色分別為負責決定如何調用其他角色的「規劃者」、搜尋及定位與問題相關片段的「定位者」、透過裁剪片段及放大畫面等方法驗證片段的「驗證者」,及分析選定片段並生成答案的「回答者」。
系統採用了新興的大型語言模型微調技術LoRA,在同一基礎模型上載入四個輕量級的LoRA適應器,即可令模型按需要自行啟動不同的適應器,動態切換角色,減省了需要動用的模型量及成本,並提高單一模型的效能及靈活度。團隊將之與多個先進大語言模型及多模態模型作比較,發現其在處理平均時長達27分鐘的長視頻時,定位準確度較GTP-4o、Gemini 1.5等尖端大模型更優勝。
陳長汶表示,人觀看視頻時會切換思維方式,先拆解問題,再找出相關片段,反覆重溫及核對才對內容下結論,大腦總功耗僅約25瓦,比相同算力的超級電腦低100萬倍。受此啟發,團隊於是設計角色化流程,讓AI像人類一樣理解視頻,並降低算力和記憶體需求,而且系統能處理智能保安監控、體育競技及娛樂視頻分析、視頻搜尋等工作,用途廣泛。
評論