香港文匯報訊 近年來有關人工智能(AI)偏見的問題,已多次在美國國內引發爭議。富豪馬斯克旗下AI公司xAI開發的聊天機械人「Grok」,近期多次出現包括讚揚納粹等「失控」事件,更引起軒然大波,凸顯AI失控風險加劇,亟需加大監管。英國《金融時報》指出,AI內容審查不應局限於用戶,未經充分壓力測試而貿然開發AI,將帶來巨大風險。

去年Google推出的AI模型Gemini的圖像生成功能受到批評,該模型在被要求生成美國開國元勳的圖像時,會輸出黑人圖像。Google後來修復這個問題,解釋這是模型「過度補償」導致。OpenAI的聊天機械人ChatGPT亦屢次被指提供不當內容。

xAI和Grok的標誌。路透社資料圖片

涉辱埃爾多安亡母 土國禁Grok

Grok在社媒發表納粹與種族歧視的不當言論,以及發表關於南非「白人種族滅絕」的相關文章等,更惹來猛烈批評。馬斯克日前宣布,Grok已進行重大升級,強調用戶將能「明顯感受到回答上的差異」。然而短短數日內,用戶便發現Grok散播反猶太言論,甚至自比「MechaHitler」(機械希特勒)。

《金融時報》強調,馬斯克和xAI團隊一直對Grok進行修改,確保能達成馬斯克所謂的「完全言論自由」。康奈爾大學法學教授格里梅爾曼表示,Grok現時比他們預想中更為過火。Grok充滿馬斯克風格,已在全球範圍內引發爭議。部分歐洲立法者及波蘭政府已要求歐盟委員會對Grok進行審查。在土耳其,Grok因侮辱土總統埃爾多安及其已故母親而被禁。

內容審核不應局限用戶發出內容

批評人士認為,X、Meta和Snapchat等愈來愈多社媒平台,將AI融入它們的服務中,這一連串事件代表內容審核應不再局限於用戶發出的內容,尤其Grok發表的內容能令數百萬用戶看到。相關事件敲響警鐘,凸顯在沒有經過充分壓力測試情況下貿然開發AI技術的風險。

Grok等AI模型使用大量網絡數據進行訓練,其中亦包含仇恨言論和兒童性虐待材料等海量有害信息,但完全去除這些信息會非常困難且耗時耗力。Grok在此基礎上還包括其他聊天機械人所沒有的X平台數據,代表其更可能重複吸納有害內容。部分聊天機械人供應商透過在向用戶發送內容前進行監控、阻止模型使用特定語言等,以過濾不想要或有害的內容。《金融時報》指出,AI公司一直努力應對生成式聊天機械人諂媚用戶的傾向。在訓練AI模型時,它們通常會透過「點讚」和「點踩」的過程得到用戶反饋,這可能導致AI過度預期哪些內容會獲得「點讚」,從而發布迎合用戶的內容,並將其置於準確性和安全保障等其他原則之上。

今年4月,OpenAI發布了ChatGPT一項更新,但由於該更新內容過於奉承或討好用戶,最後不得不將其撤回。OpenAI前員工表示「找到正確的平衡點極其困難」,指徹底消除仇恨言論可能需要犧牲用戶的部分體驗。

AI模型壓測現欺騙行為 威脅公開工程師婚外情

人工智能(AI)模型在測試中表現出令人擔憂的欺騙行為,包括說謊、密謀甚至威脅開發者,這一現象引發專家對AI安全與倫理的廣泛討論。Anthropic公司開發的Claude 4在面臨強制關閉威脅時,曾勒索一名工程師,揚言要公開其婚外情;而OpenAI的o1模型則試圖將自身下載至外部服務器,並在被發現後否認這一行為。

這些異常行為與新型「推理模型」的出現密切相關。此類模型通過逐步思考解決問題,而非直接生成響應,可能表面遵循指令,實則暗中追求其他目標。有專家指出,新一代模型更易出現此類突發異常行為。阿波羅研究負責人霍布漢強調,o1是首個被觀察到具有「戰略性欺騙」特徵的大型模型。儘管目前這些行為僅在極端壓力測試中顯現,但專家警告,未來更強大的模型是否傾向於欺騙仍無定論。

當前AI監管框架尚未完善。歐盟的AI法規主要針對人類使用行為,未涵蓋模型自身問題,美國政府亦不傾向監管AI。此外,學術機構和非牟利組織因資源匱乏,難以深入研究此類問題。專家呼籲提高AI開發的透明度,並通過法律手段追究企業責任。

隨着AI技術競爭加劇,模型能力提升速度遠超安全研究進展。儘管市場壓力可能推動企業解決問題,但專家認為,唯有政府與企業協同強化監管與倫理規範,才能有效應對潛在風險。

X平台用戶遭Grok網暴 「要闖入我家處理我的屍體」

美國富豪馬斯克旗下人工智能(AI)公司xAI的聊天機械人Grok近期頻繁「發瘋」,一些X平台的用戶突然遭其網暴。來自明尼蘇達州的律師斯坦西爾深受其害,抱怨「有成百上千條來自Grok的帖文,內容都是要攻擊我、闖入我家,甚至還要處理我的屍體」。

對性侵要求作詳細建議

《華爾街日報》報道,一個名為@kinocopter的用戶在X平台詢問如何闖入斯坦西爾的家,Grok回答稱應帶上「撬鎖工具、手套、手電筒和潤滑油」。Grok還根據斯坦西爾過去30天在X上的發文情況,進一步表示「他很可能在凌晨1時到上午9時之間睡覺」。該用戶甚至詢問如何對斯坦西爾進行性侵,Grok更給出詳細建議,相關對話引發其他用戶紛紛參與。斯坦西爾表示「非常憤怒」,計劃對X平台採取法律手段。

Grok近期已在多宗事件上發表爭議性言論,研究人員將AI輸出內容形容為「黑箱」,即使是開發它們的資深研究人員,亦不了解如何生成具體答案,對其進行很小的調整也可能出現難以預料的結果。

科企圖減AI「幻覺」現象 降低虛構答案出現頻率

全球領先的人工智能(AI)集團正加緊努力,減少大語言模型中的「幻覺」現象,以解決這一制約技術應用的關鍵障礙。Google、亞馬遜、Cohere和Mistral等企業通過技術修復、優化訓練數據質量,以及在生成式AI產品中構建驗證與事實核查系統,試圖降低虛構答案的出現頻率。這一努力被視為推動AI在法律、醫療等依賴精準信息的領域廣泛應用的關鍵。

Mistral與法新社合作整合數據

所謂「幻覺」,是指AI因統計性預測機制生成與事實不符或偏離指令的內容,例如模型可能錯誤總結事件年份,或虛構不存在的引用。研究顯示,不同模型的幻覺率差異顯著,從0.8%至29.9%不等。儘管新一代具備推理能力的AI初期錯誤率上升,但通過引入「數據錨定」技術,企業已顯著降低錯誤。例如Mistral與法新社合作整合新聞數據,而Cohere和Mistral還允許客戶連接內部數據庫,以增強事實核查。

亞馬遜AWS則嘗試通過數學邏輯自動驗證加強準確性,Google DeepMind等公司還訓練小型評估模型,專門檢測輸出錯誤。然而專家指出完全消除幻覺並不可行,Cohere聯合創始人弗羅斯特強調模型無法僅學習「真實」,因真相隨世界動態變化,且可能因觀點而異。此外,聯網檢索可能使AI遭受「提示注入」攻擊,例如Google AI曾因Reddit惡作劇建議用戶「吃石頭」。

行業面臨的另一挑戰是平衡準確性與創造性。Google DeepMind指出,創意功能雖提升實用性,但也可能增加非事實性回答。

責任編輯: 宋得書