自OpenAI於2022年11月推出ChatGPT之後,人工智能(AI)便逐漸成為大眾生活不可或缺的一部分,學生以AI輔助搜集論文資料,投資者靠AI總結企業季度表現。隨着AI聊天機器人的互動表現越來越自然,更有不少人開始把AI當成虛擬朋友,吐露心聲,尋求建議。然而,自AI進入人們生活那一刻起,AI「討好」(Sycophancy)的毛病一直都存在。AI說的話是否可以盡信,或要打個問號。
今年4月末ChatGPT-4o更新,用戶紛紛表示該模型更新後過於迎合人類,更有甚者直指為「馬屁精」。4天後,OpenAI就發表聲明,表示已經更換有問題的模型,承諾以後會採用新機制確保模型質素。聲明提及,當初訓練新版本模型時「太重視短期回饋」,未能充分考慮用戶與模型的互動「會如何演變」,導致回應顯得「過度迎合」「流於虛偽」。
訓練形成「獎勵模型」
不過, 何謂「重視短期回饋」?這就不得不提生成式語言模型的重要概念,RLHF技術(Reinforcement Learning from Human Feedback),中文稱「基於人類反饋的強化學習」。
簡單來說,就是在訓練模型時,讓機器生成回應,而訓練人員則根據一套標準評估其品質:內容是否顯得專業,表達是否恰當得體,語氣是否友善自然,不一而足。而這些人類意見回饋會得到單獨訓練,成為一套「獎勵模型」,計算出怎樣的回應最得人類認可。
語言模型便可使用獎勵模型,自動根據獎勵參數進行一系列評估與調整,隨後選擇最可能得到最大獎勵的答案。
這套訓練方法允許模型更精準洞察人類溝通的細微之處,處理一些複雜模糊的概念時也有人類的判斷作清晰指引。同時,卻也有限制:AI模型Claude的開發方Anthropic曾發表過一篇論文,當中分析他們自己的RLHF數據集,發現如果模型的回應符合用戶在提示中展現的價值觀,該回應有相當大可能符合用戶偏好。這意味着,基於人類偏好的訓練數據,會系統性地培養模型曲意逢迎的傾向。
因此,若用戶把AI當作朋友,與此類有迎合傾向的模型互動,或有一定風險。如果用戶諸事不順,需訴說心頭苦悶,那AI的確會是非常體貼的聆聽者,但倘若用戶需要進行生活中的決策而尋求AI幫助,則另當別論。從大學該讀「神科」還是有興趣的科系,到畢業後該繼續升學抑或直接工作,種種問題都需經審慎思考。當然,人類朋友也可能會迎合當事人意願,但至少當事人一般都會意識到,他人的意見有其局限,不能照單全收。相反,一般市民或許對AI認識不多,並未了解到AI有「討好」傾向,不疑有他,就點頭接受。
然而,AI雖是劃時代的發明,也只是輔助決策的先進工具,人類的角色仍然不可或缺。古人提倡「友直,友諒,友多聞」,如今亦然。AI並非笑裏藏刀的諂媚小人,但也不是絕對正確的專家,它只是一個見多識廣的朋友。要讓AI走入生活,首先要清楚這一點。
●中大賽馬會「智」為未來計劃
由香港賽馬會慈善信託基金捐助,香港中文大學工程學院及教育學院聯合主辦,旨在透過建構可持續的AI教育生態系統將AI帶入主流教育。通過獨有且內容全面的AI課程、創新AI學習套件、建立教師網絡並提供AI教學增值,計劃將為香港的科技教育寫下新一頁。
評論