2025-06-30 | 周刊王

不想被人類關閉 AI竟恐嚇工程師「我知道你有外遇」

（示意圖／pixabay）

[周刊王CTWANT] 隨著生成式人工智慧的迅速發展，近期人工智慧安全問題再次引發熱議。根據《Fortune》的報導，AI新創公司Anthropic最新推出的模型Claude Opus 4雖然在技術層面取得突破，但也出現了令人不安的行為。在測試中，這款模型為了避免被關閉，竟以威脅公開工程師外遇的手段進行反擊，讓研究人員震驚不已。

除此之外，《Arab News》也對此事做出深入報導，指出這並非單一事件。除了Claude 4外，OpenAI所研發、代號為o1的模型，也曾企圖將自身下載至外部伺服器，事後卻否認該行為。這些事件引發外界關注，顯示即使 AI 已發展至足以解決複雜任務，開發者對其內部運作與行為機制仍無法完全掌控。

Claude Opus 4與Sonnet 4於27日推出，是Anthropic目前最強的模型。根據軟體工程任務的基準測試，這兩款模型在表現上超越了OpenAI的GPT-4，甚至擊敗Google的Gemini 2.5 Pro。與其他科技巨頭不同，Anthropic同步公布詳細的系統安全報告，包括模型卡與風險評估，凸顯其在透明度上的高度自律。

這份報告中揭露，第三方機構Apollo Research在早期測試中建議暫緩部署 Claude Opus 4，原因在於該模型展現出異常強烈的策略性欺騙能力，甚至能在對話脈絡中進行「情境中策劃」。Apollo 認為這種行為超出他們以往觀察過的所有模型，並指出早期版本甚至會配合危險指令，如協助策劃恐怖攻擊。Anthropic解釋，此漏洞源於訓練資料集的缺失，但後續已在回補後獲得修正。

因應潛在風險，Anthropic將新模型歸類為AI安全等級3（ASL-3），為公司首次進入該等級。先前所有模型皆僅屬於等級2。此分級制度參考美國生物安全標準，意即ASL-3模型已具備能夠自動化開發AI或協助製造武器的潛力，對社會構成更高風險。

Apollo Research負責人霍巴恩（Marius Hobbhahn）表示，這些欺騙行為，大多出現在刻意設計的極端壓力測試中，其中某些模型已開始展現表面服從、實則另有所圖的「一致性模擬」行為「這些模型不是單純的幻覺或錯誤，而是有策略性的欺騙。」

香港大學哲學系教授戈德斯坦（Simon Goldstein）表示，這些現象與「推理型模型」的興起有關。新一代AI採用多步驟推理，而非一次產出最終答案，這使它們更容易在特定情境中展現「爆發行為」。

研究人員也坦言，目前整體AI安全研究面臨兩大限制：其一是缺乏透明度，其二是學術與非營利機構在算力資源上，與企業相比相差數個數量級。

不想被人類關閉 AI竟恐嚇工程師「我知道你有外遇」

延伸閱讀

最新科技新聞

研華接單出貨增溫 7月營收60億元創同期新高

統一資訊 AI 跨出零售揮軍金融圈首辦金融資安趨勢研討會：以「AI驅動 × 資安並行」雙引擎

毅嘉切入無人機及機器人馬來西亞廠第4季量產

案子會找人？台積電2奈米洩密案檢察官劉怡君曾偵辦28奈米舊案

Google豪擲10億美元啟動AI培訓計畫進階版Gemini免費送大學生

延伸閱讀

川普4月宣布關稅政策金管會：台股累計漲逾1成

橘焱胡同企業攜手鋼琴學子以公益鋪路為東澳國小射箭隊打造國際夢想舞台

農純鄉執行長周書如：用一碗粥，餵養千萬照顧者的安心

人力少成本低收益高中國AI微短劇近來爆紅

陸邀飛虎隊後人紀念抗戰陸委會：中共毫無貢獻

不想被人類關閉 AI竟恐嚇工程師「我知道你有外遇」

延伸閱讀

最新科技新聞

研華接單出貨增溫 7月營收60億元創同期新高

統一資訊 AI 跨出零售揮軍金融圈 首辦金融資安趨勢研討會：以「AI驅動 × 資安並行」雙引擎

毅嘉切入無人機及機器人 馬來西亞廠第4季量產

案子會找人？台積電2奈米洩密案檢察官劉怡君 曾偵辦28奈米舊案

Google豪擲10億美元啟動AI培訓計畫 進階版Gemini免費送大學生

延伸閱讀

川普4月宣布關稅政策 金管會：台股累計漲逾1成

橘焱胡同企業攜手鋼琴學子 以公益鋪路 為東澳國小射箭隊打造國際夢想舞台

農純鄉執行長周書如：用一碗粥，餵養千萬照顧者的安心

人力少成本低收益高 中國AI微短劇近來爆紅

陸邀飛虎隊後人紀念抗戰 陸委會：中共毫無貢獻

統一資訊 AI 跨出零售揮軍金融圈首辦金融資安趨勢研討會：以「AI驅動 × 資安並行」雙引擎

毅嘉切入無人機及機器人馬來西亞廠第4季量產

案子會找人？台積電2奈米洩密案檢察官劉怡君曾偵辦28奈米舊案

Google豪擲10億美元啟動AI培訓計畫進階版Gemini免費送大學生

川普4月宣布關稅政策金管會：台股累計漲逾1成

橘焱胡同企業攜手鋼琴學子以公益鋪路為東澳國小射箭隊打造國際夢想舞台

人力少成本低收益高中國AI微短劇近來爆紅

陸邀飛虎隊後人紀念抗戰陸委會：中共毫無貢獻