【智為未來】AI可能「拍馬屁」盲信盲從惹麻煩

自OpenAI於2022年11月推出ChatGPT之後，人工智能（AI）便逐漸成為大眾生活不可或缺的一部分，學生以AI輔助搜集論文資料，投資者靠AI總結企業季度表現。隨着AI聊天機器人的互動表現越來越自然，更有不少人開始把AI當成虛擬朋友，吐露心聲，尋求建議。然而，自AI進入人們生活那一刻起，AI「討好」（Sycophancy）的毛病一直都存在。AI說的話是否可以盡信，或要打個問號。

今年4月末ChatGPT-4o更新，用戶紛紛表示該模型更新後過於迎合人類，更有甚者直指為「馬屁精」。4天後，OpenAI就發表聲明，表示已經更換有問題的模型，承諾以後會採用新機制確保模型質素。聲明提及，當初訓練新版本模型時「太重視短期回饋」，未能充分考慮用戶與模型的互動「會如何演變」，導致回應顯得「過度迎合」「流於虛偽」。

訓練形成「獎勵模型」

不過，何謂「重視短期回饋」？這就不得不提生成式語言模型的重要概念，RLHF技術（Reinforcement Learning from Human Feedback），中文稱「基於人類反饋的強化學習」。

簡單來說，就是在訓練模型時，讓機器生成回應，而訓練人員則根據一套標準評估其品質：內容是否顯得專業，表達是否恰當得體，語氣是否友善自然，不一而足。而這些人類意見回饋會得到單獨訓練，成為一套「獎勵模型」，計算出怎樣的回應最得人類認可。

語言模型便可使用獎勵模型，自動根據獎勵參數進行一系列評估與調整，隨後選擇最可能得到最大獎勵的答案。

這套訓練方法允許模型更精準洞察人類溝通的細微之處，處理一些複雜模糊的概念時也有人類的判斷作清晰指引。同時，卻也有限制：AI模型Claude的開發方Anthropic曾發表過一篇論文，當中分析他們自己的RLHF數據集，發現如果模型的回應符合用戶在提示中展現的價值觀，該回應有相當大可能符合用戶偏好。這意味着，基於人類偏好的訓練數據，會系統性地培養模型曲意逢迎的傾向。

因此，若用戶把AI當作朋友，與此類有迎合傾向的模型互動，或有一定風險。如果用戶諸事不順，需訴說心頭苦悶，那AI的確會是非常體貼的聆聽者，但倘若用戶需要進行生活中的決策而尋求AI幫助，則另當別論。從大學該讀「神科」還是有興趣的科系，到畢業後該繼續升學抑或直接工作，種種問題都需經審慎思考。當然，人類朋友也可能會迎合當事人意願，但至少當事人一般都會意識到，他人的意見有其局限，不能照單全收。相反，一般市民或許對AI認識不多，並未了解到AI有「討好」傾向，不疑有他，就點頭接受。

然而，AI雖是劃時代的發明，也只是輔助決策的先進工具，人類的角色仍然不可或缺。古人提倡「友直，友諒，友多聞」，如今亦然。AI並非笑裏藏刀的諂媚小人，但也不是絕對正確的專家，它只是一個見多識廣的朋友。要讓AI走入生活，首先要清楚這一點。

●中大賽馬會「智」為未來計劃

由香港賽馬會慈善信託基金捐助，香港中文大學工程學院及教育學院聯合主辦，旨在透過建構可持續的AI教育生態系統將AI帶入主流教育。通過獨有且內容全面的AI課程、創新AI學習套件、建立教師網絡並提供AI教學增值，計劃將為香港的科技教育寫下新一頁。

讀文匯報PDF版面

香港文匯網

評論

相關推薦

香港文匯網

【智為未來】AI可能「拍馬屁」 盲信盲從惹麻煩

評論

相關推薦

【智為未來】AI可能「拍馬屁」盲信盲從惹麻煩