
香港文匯報訊(記者 曾業俊)「香港音頻基礎模型」是參與數碼港「人工智能資助計劃」的獲批項目之一。該項目旨在建設「多語種音頻語料庫」,現已成功建立一個包含50萬小時高質量粵語、普通話和英語錄音的大規模多語種音頻語料庫,覆蓋香港獨特三語環境中的各種口音,支持自動語音識別(ASR)、文本轉語音(TTS)和對話系統的精準訓練與微調。同時,項目開發了「HKMeeting港會通系統」,是專門應付香港會議場景的解決方案,能自動將會議語音內容轉換為文字紀錄,輸出高度提煉總結,並生成會議紀要。
負責上述項目的香港科技大學首席副校長、香港生成式人工智能研發中心主任郭毅可教授昨日表示,該研發項目需要訓練AI模型,為其他模型提供數據,因此「算得多、算得快」是最重要,並「需要很多機器提供算力」,而資助計劃及超算中心正正為項目提供最重要的算力。假如沒有資助項目,相信研發進度可能會延遲至少3個月到半年。
政府採「港會通」開會 研增安全性
對於研發項目的成效,郭毅可透露,目前項目語音系統的準確率取決於應用場景,一般大概在88%至95%之間,應用於會議綽綽有餘。目前已有政府部門正在使用「港會通系統」,研發團隊未來會持續提升系統安全性。面對同類的AI語音翻譯系統競爭,郭毅可指出香港的語言場景特色是經常「雙語混雜」,港人對話時雖然主要使用粵語,但經常突然冒出幾句英文,有時更會有粵語、普通話、英文三語混雜,而他團隊研發的系統在這方面做得比同業優勝。他們的模型訓練主要採用香港數據,收集大量專業名詞,在翻譯專業知識方面會比同類系統更為準確。研發團隊未來會繼續為系統注入香港特色,會做得更深入,包括增添更多專有名詞和字詞的特殊用法,作為系統長項。
評論