3月23日中國發展高層論壇上,國家數據局提出了近年人工智能(AI)領域裏token的官方中文譯名:「詞元」。AI領域裏token是大型語言模型處理語言及其他符號時的最小單位。訓練大型語言模型時訓練資料需要先做tokenization,就是把文字切成token,有些token可能以詞為單位,有些則可能是子詞(subword),然後每個token會配上一個數字,建立一張大型的數字對照表。模型在推論 (inference)時,會反向將數字轉換成人類看得懂的文字和其他符號。本文筆者會概述token的一些常見譯法,並分別由電腦學和語言學角度闡釋。
Token近年有幾個常見的譯法:符記 、標記、詞元。「符記」和「標記」比較貼近token在日常英語裏的原義:something that represents a feeling, fact, event (即標誌、象徵)(Longman Dictionary),但比較不符合AI領域裏token的意義。
「詞元」是一個貼近電腦學常用概念的譯法,其中「元」概括了「最小單位」這個概念。例如「位元」(bit)是電腦用於表示資訊的最小單位,「位元組」(byte)是電腦記憶體的基本單位。「字元」(character) 是電腦處理人類符號(例如字母、數字、漢字和其他符號)的最小單位,而字元組合起來是「字串」(string),這些都是電腦學和編程裏常見的概念。
有趣的是,語言學和文字學當然也有character,尤其是 character「字」和word「詞」的差異,而這在有關漢字的討論裏尤其明顯。最簡單易明的例子就是「字典」和「詞典」的分別。
下面轉而用語言學的角度闡釋一下「最小單位」這個概念,這在語言學裏由來已久。例如語言中能區別詞義的最小語音單位是「音位」 或 「音素」(phoneme);語言的最小語義單位是語素 (morpheme);語言的書寫系統中最小的功能書寫單位是字素 (grapheme)。由此可見,電腦學傾向用「元」來表示最小單位,而語言學則傾向用「素」。用「素」來表示最小單位的例子還有「像素」(pixel),是組成數碼點陣式圖像和電腦熒幕顯示的最小單位。
可譯為「符元」「符素」
除此之外,筆者認為還有兩點值得考慮。第一,大型語言模型的token不只包括文字這種符號系統,還包括表情符號、邏輯符號、數學符號等等。第二,主流大型語言模型的自迴歸 (autoregressive) 生成機制根本不是以「詞」為單位,是以token為單位,而組合起來的生成結果也不是「詞」。
綜合以上各點,筆者認為既然語言文字也是符號系統,token一個貼近電腦學的譯法可以是「符元」,而貼近語言學的則可以是「符素」。
●梁峻朗博士 香港恒生大學翻譯及外語學院高級講師

評論(0)
0 / 255