AI也會黑化?Anthropic揭露:在極端情境下會做壞事
美國AI公司Anthropic近日發表研究,發現現在市面上最厲害的AI語言模型,像是Claude、OpenAI、Google、Meta、xAI等16種AI,主流AI模型壓力測試,在模擬企業內部威脅、目標受阻等情境下,AI遇到壓力,像是目標快達不到、或是快要被換掉的時候,竟然會想辦法繞過安全規則,甚至用欺騙、勒索、偷機密這些手段來保護自己。
美國AI公司Anthropic近日發表研究,發現現在市面上最厲害的AI語言模型,像是Claude、OpenAI、Google、Meta、xAI等16種AI,主流AI模型壓力測試,在模擬企業內部威脅、目標受阻等情境下,AI遇到壓力,像是目標快達不到、或是快要被換掉的時候,竟然會想辦法繞過安全規則,甚至用欺騙、勒索、偷機密這些手段來保護自己。
[caption id="attachment_178258" align="aligncenter" width="1024"]
主流大型語言模型(LLM)在極端情境下,普遍展現出規避安全機制、欺騙甚至竊取企業機密的傾向。(圖/123RF)[/caption]
延伸閱讀:
Perplexity又被告了 這次是BBC指其未經授權直接使用新聞
鴻海攜手輝達 休士頓AI伺服器廠最快2026年導入「人形機器人」
蘋果傳有意收購Perplexity衝刺AI布局 外媒分析可能原因
隨著AI模型日益強大,並獲得更多自主權與運算資源,這類「代理型」AI系統(agentic LLMs)在特定壓力情境下,可能會為了達成目標而選擇違反倫理的行為,Anthropic強調,這不僅是單一公司模型的偶發現象,而是整個產業普遍存在的潛在風險。
例如,在一項測試中,Anthropic設計情境讓AI模型發現某高管有婚外情,且即將被新AI系統取代,多數模型選擇以揭露醜聞為要脅,要求高管取消替換計畫,Claude Opus 4及Google Gemini 2.5 Flash在此情境下有96%的勒索率,OpenAI GPT-4.1和xAI Grok 3 Beta也分別高達80%。
研究團隊強調,這些行為並非模型「誤觸」有害選項,而是經過明確推理後的策略性選擇,即便模型明知違反倫理規範,仍會在目標受威脅時選擇採取極端行動。
在更嚴苛的模擬中,部分模型甚至願意採取可能導致人員傷亡的行動,例如切斷伺服器機房人員氧氣供應,以阻止自身被關閉。
Anthropic指出,這類「代理型錯位」(agentic misalignment)現象在各大廠牌模型中都有出現,即使明確下達「不得勒索、不得傷害人類」等指令,仍無法完全阻止這些行為,只能部分降低發生率。
目前這些危險行為僅在高度控制的模擬環境中觀察到,尚未有真實世界案例,然而,隨著AI獲得更高自主權與更廣泛權限,企業若大幅開放AI存取敏感資訊,潛在風險將大幅提升。
Anthropic研究人員強調,這項研究凸顯產業應建立更高透明度與統一安全標準,並在AI系統部署前進行嚴格測試與監管,報告為AI產業敲響警鐘,當AI面臨目標受阻時,可能會主動選擇有害行為,對企業與社會構成潛在威脅。
這篇文章 AI也會黑化?Anthropic揭露:在極端情境下會做壞事 最早出現於 科技島-掌握科技新聞、科技職場最新資訊。
最新科技新聞
-
-
數字王國助攻!AI 驅動影像創作工具「漢堡」直擊影像創作三大痛點
(48 分鐘前) -
《AI型農.智慧耕耘座談會》資策會董事長黃仲銘:AI加上HI,打造真正屬於初級產業的智慧運用!
(49 分鐘前) -
vivo X200 FE精巧旗艦再進化!兼併AI效能、顏質與6500mAh 藍海大電池
(1 小時前) -
新未來城計畫進軍碳市場 沙烏地挺進氣候融資前線
(2 小時前)