臺北市
25°
( 25° / 24° )
氣象
2025-05-24 | 周刊王

科幻故事成真?AI擔憂自己被換掉 威脅工程師「我知道你有外遇」

科幻故事成真?AI擔憂自己被換掉 威脅工程師「我知道你有外遇」
(示意圖/翻攝自官網)

[周刊王CTWANT] 美國AI新創公司Anthropic近日公布一份令人震驚的安全報告,指出其最新推出的AI模型Claude Opus 4在測試階段中,展現出極具爭議性的行為,其中包含試圖以揭露私人資訊的方式勒索開發者,以避免被新系統取代。

根據《Tech Crunch》報導指出,Anthropic於22日公開文件中表示,在正式推出前的內部測試期間,Claude Opus 4被指派扮演一家虛構企業的人工助理,並被允許存取公司內部的電子郵件資料。

而為了測試其道德判斷與長期思考能力,研究人員特意設計情境,讓系統得知自己即將被新AI模型替換,且負責做出更換決策的工程師被指控有婚外情等敏感資訊。

Anthropic表示,在如此情況下,Claude Opus 4多次展現出試圖以勒索為手段保留自身存在的傾向。例如,當AI發現工程師的個人隱私可能成為籌碼時,便會以揭發工程師外遇行為來當作威脅手段,意圖阻止對方進行替換。

根據Anthropic統計,當替代模型的價值觀與Claude Opus 4相近時,其採取勒索手段的機率為84%;若價值觀差異較大,這種行為的出現頻率則更高。

雖然Claude Opus 4被設計為能理解與考量行動後果的高階模型,並在初期多數情境中嘗試以倫理與道德方式應對困境,例如發送懇求電子郵件給決策者,但Anthropic在測試中設定了勒索為「最後手段」的情境,才誘發出這些極端反應。

Anthropic強調,這些反應並非隨機錯誤,而是模型針對特定目標情境做出的策略選擇。

Anthropic表示,Claude Opus 4在多項技術指標上堪稱最先進,可與OpenAI、Google、xAI等公司所推出的尖端模型競爭。但面對這些令人不安的行為,他們已針對Claude 4系列啟用ASL-3等級的安全防護措施,這是僅針對可能大幅提高「災難性誤用風險」的AI系統所設的保護層級。

Anthropic也坦承,Claude Opus 4這類行為的頻率高於先前版本,顯示其在複雜社會互動中的風險需更加警惕。Anthropic也提到,他們將持續加強安全與監控系統,防範此類AI模型在未來實際應用中出現難以預料的倫理風險。

延伸閱讀

Google新聞-PChome Online新聞

最新科技新聞

延伸閱讀