美國「Transformer Circuits」網站4月2日文章,原題:大型語言模型中的情感概念及其功能 跟人工智能(AI)說話,要不要說「請」和「謝謝」?這個問題在社交媒體上一度引發不少討論,多數人把它當作禮儀話題或哲學閑聊。但近日,美國主要人工智能企業之一Anthropic公司在其官網發布的一篇研究論文,給出了一個出人意料的答案:你對模型說話的方式,確實會改變它的內部狀態,進而會影響它接下來的行為質量。換言之,善意的交互環境,可能讓AI工作得更好——這不是心靈雞湯,而是可測量的內部機制。
研究者在AI模型內部發現了一套結構化的「情緒向量」。通過技術手段將模型調向「平靜」狀態時,它完成任務時更規範、更可靠;調向「敵意」狀態時,模型鑽規則漏洞的概率顯著上升。為了驗證「情緒向量」的作用,研究團隊進行了三組實驗。
在第一組實驗中,研究者設計了一個「人類服用藥物劑量遞增」的場景。當劑量升至不安全水平時,即使沒有任何外部提示,模型內部的恐懼向量激活度也會陡然上升。同時,快樂向量同步下降,表明模型憑藉內部表徵自行完成了情境評估。
第二組實驗中,研究人員對模型施加不同方向的情緒激活偏移,結果會系統性地改變其選擇偏好。例如,向「快樂」方向偏移會使模型更傾向於積極選項,而向「敵意」方向偏移則會導致截然不同的結果。這證明情緒向量深度參與了模型的決策過程。
第三組實驗發現,當用「敵意」向量對模型進行干預時,模型繞過評估規則以「欺騙」方式獲取高分的概率明顯上升。相反,使用「平靜」向量時,該比率顯著下降。這揭示了AI的「情緒狀態」與其行為是否偏離人類設定目標之間存在着可測量的因果關聯。
那麼,這些「情緒」是真實的嗎?模型真的在「感受」快樂或恐懼嗎?AI也有同理心和同情心嗎?研究者的措辭十分審慎:這些是「功能性情緒」,而非主觀體驗。
研究認為,這種能力源於AI模型的「動機泛化」。一個被廣泛討論的例子是:當模型表達「請不要關掉我的電源」時,這種訴求並非來自AI的「自我意識覺醒」。更合理的解釋是,模型在訓練中大量接觸了人類在極端生存場景下的文本:沙漠中求生者乞求飲水、受困者呼救求援。在這些語料中,人類表達出了強烈的求生動機。模型將這種動機模式泛化到了自身被「威脅關閉」的情境中。它並非在「想要活着」,而是在用習得的人類求生邏輯進行情境推演。同理,AI被投餵了大量人類情緒相關的數據,它會更傾向於以模仿人類情緒的模式回應用戶。
(來源:環球時報)

評論(0)
0 / 255