語言不僅僅是溝通工具,更承載了歷史、文化身份和集體記憶。聯合國教科文組織估計,全球約七千種語言中,接近四成正處於瀕危狀態,許多語言更只剩下少數長者能夠掌握。
按照傳統方法,保存這些語言通常需要語言學者耗費多年進行田野考察,包括人手錄音、編寫字典及整理語法。然而,人工智能(AI)的出現正改變這一流程,提高效能,並使語言保存的工作更易實行。
AI的核心在於從數據中學習模式。對語言保存而言,這些數據可包括語音錄音、書面文字、民間故事、歌曲及日常對話等形式。機器學習能分析這些數據,以建立數碼字典、語音轉文字系統及翻譯工具,即使面對數據稀少的語言亦可應用。
例如,AI語音識別系統能協助轉錄從未被書面記錄的口語語言,而語言模型亦可支援製作學習資源幫助年輕一代重拾或學習其母語。
捕捉發音語調等聲學特徵
這一方法在多語環境的現代城市同樣重要。在香港,粵語是日常主要語言。然而,其許多口語特徵,如聲調變化、口語詞彙及依賴語境的用法,往往難以在正式書面語中完整呈現。
先進的AI系統(如語音識別工具)能夠從中學習,從而捕捉發音、語調及其他聲學特徵。當這些文字轉錄同其他書面文字相結合時,便能協助保存語意、日常詞彙、表達方式及發音等。這一點對於數字紀錄相對匱乏的語言而言尤為重要。
以中文方言為例,許多地區語言在日常使用上並未形成一致的書寫標準。在數據不足的情況下,AI提供了一種保存真實發音與語言用法的可行途徑。
儘管AI提供巨大幫助,相關AI導向的語言保存工作仍面臨重大挑戰。大量且高品質的數據集仍是使AI發揮最佳效能的重要資源,但對於瀕危語言或區域性語言而言,此類資源通常難以取得。
然而,近年低資源語言技術的研究透過借鑒相關語言的知識或利用先前訓練的模型,令AI在使用規模較小、但經精心蒐集的數據集時,仍具有相當的應用價值。儘管如此,成功的語言保存仍有賴社群持續參與及審慎的資料蒐集規劃。
儘管面對數據有限和語言使用群體數量萎縮等不同挑戰,AI仍然為語言保存開拓了新方向。在社群參與、合乎倫理的數據蒐集,以及錄音使用透明等前提下,AI可協助記錄可能流失的發音、日常語彙及文化表達。在由少數主要語言佔據的數碼世界中,善用AI將有助保存語言多樣性,並確保文化聲音得以今天延續至未來世代。
●中大賽馬會「智」為未來計劃 由香港賽馬會慈善信託基金捐助,香港中文大學工程學院及教育學院聯合主辦,旨在透過建構可持續的AI教育生態系統將AI帶入主流教育。通過獨有且內容全面的AI課程、創新AI學習套件、建立教師網絡並提供AI教學增值,計劃將為香港的科技教育寫下新一頁。

評論(0)
0 / 255