姚兆明 香港大學計算與數據科學學院副院長
當OpenAI的ChatGPT發布,全世界都為它的強大能力而驚嘆。事實上,ChatGPT並非突然之間出現,而是多年研究累積的成果,其所使用的技術也是多年前就已經研發出來的。所以,它並非什麼魔法。
大型語言模型的訓練
讓我們簡單回顧人工智能系統的訓練過程,三個要素分別是:訓練資料、標註訓練資料、底層人工智能模型和演算法。從更宏觀的角度來說,訓練一個大型語言模型也是類似。差別在於,訓練一個大型語言模型(例如ChatGPT或DeepSeek)需要更大量資料,大多數大型語言模式使用大量的開放資料,例如可以從網絡上取得數十億個網頁和文件,而每個系統也會有自己私有的訓練數據;而且,手動標記如此大量的數據是不可能的。
當然,有一些技術可以解決這個問題,我們不會深入細節,但讓我舉一個簡單的例子,以了解學術上怎解決這個問題。就像教一個孩子以「如果……,那麼……」造句,我們通常會給他們幾個例子,並要求他們在這個結構中創建新的句子,然後老師會檢查孩子所造的句子,並給予回饋,我們的孩子就是這樣學習如何寫作的。在訓練大型語言模型時,粗略地說,我們正在用類似的方法,我們只需標記一小組數據,然後讓系統學習並重新強化系統的答案是否正確,可以省下標記所有數十億個網頁和文件的工作。我們也依靠底層的AI模型和演算法來使其運作,基於訓練資料和底層模型,系統將建立一個大型語言模型來回答使用者的問題。
現在,讓我們專注於大型語言模型的一些問題。就像教導孩子一樣,我們向孩子提供的材料(在人工智能系統訓練中是指訓練數據)會影響他們的思考方式,大型語言模型也是如此,且訓練的數據也存在一些問題。筆者說過,除了公開數據之外,每個系統都會有自己的私人數據集,這也是為什麼對於同一個問題,不同的大型語言模型系統可能會給出不同的答案的原因之一 。
AI的局限與慎用
坦白說,人工智能系統目前還無法做到所有事情。在初始階段,它們還沒有接受過解決邏輯問題的訓練,例如,我們要求它們解決以下問題:給定兩個桶,一個裝5公升,一個裝3公升,但桶上沒有容量標記,應該如何獲得2公升水?這是一個簡單的邏輯問題,但大多數大型語言模型系統無法提供最佳或準確的答案。筆者估計現時大多數系統都獲進一步改進,以訓練它們解決邏輯問題,但不同系統可能會提供不同答案,這也取決於訓練數據(特別是它們的私有訓練數據)以及人工智能模型和底層演算法的差異。
評論