文匯網文匯報教育【嶺創新知】海量數據藏謬誤 AI「幻覺」需辨別

【嶺創新知】海量數據藏謬誤 AI「幻覺」需辨別

2025-11-26 04:25:33 教育

普通話
廣東話

字號

超大
大
標準
小

近年來，生成式人工智能（GenAI）被廣泛應用，這一切歸功於GenAI能以近乎真人的方式回答問題，或按用戶的要求自動生成高質素的圖像、音樂、程序代碼等。儘管GenAI的表現能滿足大部分用戶需求，但它並不完美，特別是在尋找一些新興領域或研究前沿的論文，GenAI可能會輸出一些不存在的論文，這種現象在學術界被稱為「幻覺」。要理解這一現象，我們需要了解GenAI的運作原理。

在計算機科學和人工智能領域，我們會用神經網絡、機械學習、深度學習等術語來描述GenAI的底層技術基礎。這些術語容易讓人有錯覺，誤以為專家在用算法於電腦上模擬生物的神經細胞和大腦。

然而，雖然人工智能的神經網絡受到生物學啟發，但它是由大量簡單數學函數（激勵函數）為基礎組成的節點（神經元）網絡，來模擬極為複雜的數學函數運算模型。

整個神經網絡的運算過程是由其神經元之間連結的強弱權重所控制，這些權重也就是神經網絡的參數。通過調整這些參數，神經網絡可以被配置用於圖像識別、語音識別、內容生成等特定任務。而數據科學家不斷把事先精心預備好的特定領域數據輸入到神經網絡，再按神經網絡輸出的結果及相對應的正確運算結果之間的差異調整參數，逐漸配置好神經網絡。

這個過程被稱為「訓練模型」，類似於運動員在教練的指導下不斷修正自己的動作和技巧，一步步提升自己的實力。

理解原理善運用

GenAI被訓練成以用戶的問題作為輸入訊號，運用底層模型參數來運算出回答的運算模型。為了提高通用性，GenAI在訓練過程中使用了收集自互聯網的海量文字數據，再將其提純並融入模型參數中，所以GenAI實際上是以現存的文字數據作為模板來回答用戶的問題。

不過，這種方法有潛在問題。首先，從互聯網收集的海量文字數據並不完全可靠，要排除所有潛在的問題數據也不現實，因為這需要極高的人力和時間成本。而這些數據已經被提純為模型參數，GenAI是做不到自行篩選來源可靠的數據才開始運算回答。

這就像一個熱愛運動的普通人在沒有教練的指導下，只靠網上不同的教學和比賽視頻來學習一門運動，他是沒有能力從這些視頻中歸納出最適合自己的動作和技巧，因此難以達到專業水準。

此外，GenAI的模型結構並未被設計為能嚴格按照邏輯來推理答案，使它在回應用戶問題時，不會像人類那樣思考答案的正確性，令GenAI有可能生成錯誤或不準確的答案，這便是「幻覺」出現的原因。

筆者認為，GenAI的發展雖為日常帶來便利，但也伴隨着挑戰。若能理解其運作原理，有助於用戶更好地運用這項技術，並在必要時保持警惕。

●李鈞揚嶺南大學數據科學學院人工智能學部教學助理教授

讀文匯報PDF版面

0 已點過讚

評論（0）

0 / 255

熱門搜尋：

【嶺創新知】海量數據藏謬誤 AI「幻覺」需辨別