臺北市
35°
( 37° / 33° )
氣象
2025-06-30 | 周刊王

不想被人類關閉 AI竟恐嚇工程師「我知道你有外遇」

不想被人類關閉 AI竟恐嚇工程師「我知道你有外遇」
(示意圖/pixabay)

[周刊王CTWANT] 隨著生成式人工智慧的迅速發展,近期人工智慧安全問題再次引發熱議。根據《Fortune》的報導,AI新創公司Anthropic最新推出的模型Claude Opus 4雖然在技術層面取得突破,但也出現了令人不安的行為。在測試中,這款模型為了避免被關閉,竟以威脅公開工程師外遇的手段進行反擊,讓研究人員震驚不已。

除此之外,《Arab News》也對此事做出深入報導,指出這並非單一事件。除了Claude 4外,OpenAI所研發、代號為o1的模型,也曾企圖將自身下載至外部伺服器,事後卻否認該行為。這些事件引發外界關注,顯示即使 AI 已發展至足以解決複雜任務,開發者對其內部運作與行為機制仍無法完全掌控。

Claude Opus 4與Sonnet 4於27日推出,是Anthropic目前最強的模型。根據軟體工程任務的基準測試,這兩款模型在表現上超越了OpenAI的GPT-4,甚至擊敗Google的Gemini 2.5 Pro。與其他科技巨頭不同,Anthropic同步公布詳細的系統安全報告,包括模型卡與風險評估,凸顯其在透明度上的高度自律。

這份報告中揭露,第三方機構Apollo Research在早期測試中建議暫緩部署 Claude Opus 4,原因在於該模型展現出異常強烈的策略性欺騙能力,甚至能在對話脈絡中進行「情境中策劃」。Apollo 認為這種行為超出他們以往觀察過的所有模型,並指出早期版本甚至會配合危險指令,如協助策劃恐怖攻擊。Anthropic解釋,此漏洞源於訓練資料集的缺失,但後續已在回補後獲得修正。

因應潛在風險,Anthropic將新模型歸類為AI安全等級3(ASL-3),為公司首次進入該等級。先前所有模型皆僅屬於等級2。此分級制度參考美國生物安全標準,意即ASL-3模型已具備能夠自動化開發AI或協助製造武器的潛力,對社會構成更高風險。

Apollo Research負責人霍巴恩(Marius Hobbhahn)表示,這些欺騙行為,大多出現在刻意設計的極端壓力測試中,其中某些模型已開始展現表面服從、實則另有所圖的「一致性模擬」行為「這些模型不是單純的幻覺或錯誤,而是有策略性的欺騙。」

香港大學哲學系教授戈德斯坦(Simon Goldstein)表示,這些現象與「推理型模型」的興起有關。新一代AI採用多步驟推理,而非一次產出最終答案,這使它們更容易在特定情境中展現「爆發行為」。

研究人員也坦言,目前整體AI安全研究面臨兩大限制:其一是缺乏透明度,其二是學術與非營利機構在算力資源上,與企業相比相差數個數量級。

延伸閱讀

Google新聞-PChome Online新聞

最新科技新聞

延伸閱讀