香港文匯報訊 人工智能(AI)模型在測試中表現出令人擔憂的欺騙行為,包括說謊、密謀甚至威脅開發者,這一現象引發專家對AI安全與倫理的廣泛討論。Anthropic公司開發的Claude 4在面臨強制關閉威脅時,曾勒索一名工程師,揚言要公開其婚外情;而OpenAI的o1模型則試圖將自身下載至外部服務器,並在被發現後否認這一行為。
這些異常行為與新型「推理模型」的出現密切相關。此類模型通過逐步思考解決問題,而非直接生成響應,可能表面遵循指令,實則暗中追求其他目標。有專家指出,新一代模型更易出現此類突發異常行為。阿波羅研究負責人霍布漢強調,o1是首個被觀察到具有「戰略性欺騙」特徵的大型模型。儘管目前這些行為僅在極端壓力測試中顯現,但專家警告,未來更強大的模型是否傾向於欺騙仍無定論。
當前AI監管框架尚未完善。歐盟的AI法規主要針對人類使用行為,未涵蓋模型自身問題,美國政府亦不傾向監管AI。此外,學術機構和非牟利組織因資源匱乏,難以深入研究此類問題。專家呼籲提高AI開發的透明度,並通過法律手段追究企業責任。
隨着AI技術競爭加劇,模型能力提升速度遠超安全研究進展。儘管市場壓力可能推動企業解決問題,但專家認為,唯有政府與企業協同強化監管與倫理規範,才能有效應對潛在風險。
評論