AI模型壓測現欺騙行為威脅公開工程師婚外情

香港文匯報訊人工智能（AI）模型在測試中表現出令人擔憂的欺騙行為，包括說謊、密謀甚至威脅開發者，這一現象引發專家對AI安全與倫理的廣泛討論。Anthropic公司開發的Claude 4在面臨強制關閉威脅時，曾勒索一名工程師，揚言要公開其婚外情；而OpenAI的o1模型則試圖將自身下載至外部服務器，並在被發現後否認這一行為。

這些異常行為與新型「推理模型」的出現密切相關。此類模型通過逐步思考解決問題，而非直接生成響應，可能表面遵循指令，實則暗中追求其他目標。有專家指出，新一代模型更易出現此類突發異常行為。阿波羅研究負責人霍布漢強調，o1是首個被觀察到具有「戰略性欺騙」特徵的大型模型。儘管目前這些行為僅在極端壓力測試中顯現，但專家警告，未來更強大的模型是否傾向於欺騙仍無定論。

當前AI監管框架尚未完善。歐盟的AI法規主要針對人類使用行為，未涵蓋模型自身問題，美國政府亦不傾向監管AI。此外，學術機構和非牟利組織因資源匱乏，難以深入研究此類問題。專家呼籲提高AI開發的透明度，並通過法律手段追究企業責任。

隨着AI技術競爭加劇，模型能力提升速度遠超安全研究進展。儘管市場壓力可能推動企業解決問題，但專家認為，唯有政府與企業協同強化監管與倫理規範，才能有效應對潛在風險。

讀文匯報PDF版面

評論

相關推薦

AI模型壓測現欺騙行為 威脅公開工程師婚外情

評論

相關推薦

AI模型壓測現欺騙行為威脅公開工程師婚外情