撰文:譚善恆
(華坊諮詢評估董事、谷歌人工智能認證專業人員)
筆者此前提出GAP框架(Gross AI-powered Productivity=L×C×M×I),透過四因子相乘,量度一個經濟體的整體AI賦能生產力,並指出跨主權AI互補,宜理解為四因子比例結構的對齊程度。本篇嘗試延伸框架中的M因子(自主大模型能力),從語言學角度探討:中文獨有的結構特性,是否能讓本土原生中文AI模型,在比較優勢理論下具備獨特的戰略定位?
比較優勢論的語言版本
英國經濟學家David Ricardo提出的比較優勢論可作為分析框架:即使一方在所有領域皆有絕對優勢,雙方仍應各自聚焦相對優勢最大的領域,以交換代替競爭,實現雙贏。將此套邏輯套用至中美AI語言格局:英文主導的大型語言模型Large Language Model(LLM)在英文語素處理與英文語料規模上具既有優勢;而原生中文LLM在中文語言結構的處理效率、語料質量管理方面,存在另一套結構性優勢。兩者並非在同一語言維度分出高下,而是比較優勢分工的基礎。
詞元壓縮與算力效率的理論關聯
LLM的運算單位是詞元(token)。中文屬表意文字,每個字符本身攜帶語義;英文屬表音文字,需由字母串組成詞彙,方具完整意思。研究顯示,英文文本中的每個token平均承載約4.75個字符,中文文本僅承載約1.33個字符。若承載相同語義內容,中文字符具較高語義密度;而實際詞元效率則高度取決於tokenizer設計與模型架構,不同模型之間的表現差異甚大。
詞元數量直接影響推理成本:self-attention機制的計算量會按token數呈平方級別增長。在其他條件不變下,較短詞元序列一般有助降低推理計算量與能耗需求。個別模型測試數據顯示,非英語語境下存在詞元用量下降的現象,但該結果高度依賴模型架構與tokenizer設計,目前尚未形成一致結論。「中文詞元壓縮→推理能耗節省」這條因果鏈,目前仍屬工程推論,有待進行系統性量化驗證;但以現有技術文獻的邏輯推演,假設的自洽性已足以支撐政策層面的研究投入。
英文LLM語域分層不足,特顯中文LLM結構性優勢
除語義壓縮帶來的優勢以外,更根本的問題在於英文主導LLM的中文訓練語料質量短板。中文語域結構比英文複雜,而英文主導的LLM缺乏對中文語域分層(Register Stratification)的系統性訓練能力。反觀中文原生模型,理論上更容易建立符合中文語域分層的訓練機制:訓練語料由具母語語感的團隊主導篩選,語域分層更為精準,語義污染的清除機制更貼近中文使用者的實際表達結構。這不是算力可以彌補的差距,而是語言文化的結構性優勢。
上述兩個層面,僅屬中文AI建立比較優勢的語言結構基礎。下篇將進一步探討語言人口與學術產出的規模基礎,以及中文AI模型如何成為觸發生態飛輪的引擎。
(題為編者所擬。文章為作者之個人意見,不代表本報立場)

評論(0)
0 / 255