文匯網文匯報教育【恒大譯站】從電腦學及語言學析「詞元」譯名

【恒大譯站】從電腦學及語言學析「詞元」譯名

2026-05-05 04:24:32 教育

普通話
廣東話

字號

超大
大
標準
小

3月23日中國發展高層論壇上，國家數據局提出了近年人工智能（AI）領域裏token的官方中文譯名：「詞元」。AI領域裏token是大型語言模型處理語言及其他符號時的最小單位。訓練大型語言模型時訓練資料需要先做tokenization，就是把文字切成token，有些token可能以詞為單位，有些則可能是子詞（subword），然後每個token會配上一個數字，建立一張大型的數字對照表。模型在推論（inference）時，會反向將數字轉換成人類看得懂的文字和其他符號。本文筆者會概述token的一些常見譯法，並分別由電腦學和語言學角度闡釋。

Token近年有幾個常見的譯法：符記、標記、詞元。「符記」和「標記」比較貼近token在日常英語裏的原義：something that represents a feeling, fact, event （即標誌、象徵）（Longman Dictionary），但比較不符合AI領域裏token的意義。

「詞元」是一個貼近電腦學常用概念的譯法，其中「元」概括了「最小單位」這個概念。例如「位元」（bit）是電腦用於表示資訊的最小單位，「位元組」（byte）是電腦記憶體的基本單位。「字元」（character）是電腦處理人類符號（例如字母、數字、漢字和其他符號）的最小單位，而字元組合起來是「字串」（string），這些都是電腦學和編程裏常見的概念。

有趣的是，語言學和文字學當然也有character，尤其是 character「字」和word「詞」的差異，而這在有關漢字的討論裏尤其明顯。最簡單易明的例子就是「字典」和「詞典」的分別。

下面轉而用語言學的角度闡釋一下「最小單位」這個概念，這在語言學裏由來已久。例如語言中能區別詞義的最小語音單位是「音位」或「音素」（phoneme）；語言的最小語義單位是語素（morpheme）；語言的書寫系統中最小的功能書寫單位是字素（grapheme）。由此可見，電腦學傾向用「元」來表示最小單位，而語言學則傾向用「素」。用「素」來表示最小單位的例子還有「像素」（pixel），是組成數碼點陣式圖像和電腦熒幕顯示的最小單位。

可譯為「符元」「符素」

除此之外，筆者認為還有兩點值得考慮。第一，大型語言模型的token不只包括文字這種符號系統，還包括表情符號、邏輯符號、數學符號等等。第二，主流大型語言模型的自迴歸（autoregressive）生成機制根本不是以「詞」為單位，是以token為單位，而組合起來的生成結果也不是「詞」。

綜合以上各點，筆者認為既然語言文字也是符號系統，token一個貼近電腦學的譯法可以是「符元」，而貼近語言學的則可以是「符素」。

●梁峻朗博士香港恒生大學翻譯及外語學院高級講師

讀文匯報PDF版面

0 已點過讚

評論（0）

0 / 255

熱門搜尋：

【恒大譯站】從電腦學及語言學析「詞元」譯名