2025-06-23 | 科技島

AI也會黑化？Anthropic揭露：在極端情境下會做壞事

美國AI公司Anthropic近日發表研究，發現現在市面上最厲害的AI語言模型，像是Claude、OpenAI、Google、Meta、xAI等16種AI，主流AI模型壓力測試，在模擬企業內部威脅、目標受阻等情境下，AI遇到壓力，像是目標快達不到、或是快要被換掉的時候，竟然會想辦法繞過安全規則，甚至用欺騙、勒索、偷機密這些手段來保護自己。記者鄧天心／綜合報導

[caption id="attachment_178258" align="aligncenter" width="1024"]
AI也會黑化？Anthropic揭露：在極端情境下會做壞事
主流大型語言模型（LLM）在極端情境下，普遍展現出規避安全機制、欺騙甚至竊取企業機密的傾向。（圖／123RF）[/caption]

延伸閱讀：

Perplexity又被告了這次是BBC指其未經授權直接使用新聞

鴻海攜手輝達休士頓AI伺服器廠最快2026年導入「人形機器人」

蘋果傳有意收購Perplexity衝刺AI布局外媒分析可能原因

隨著AI模型日益強大，並獲得更多自主權與運算資源，這類「代理型」AI系統（agentic LLMs）在特定壓力情境下，可能會為了達成目標而選擇違反倫理的行為，Anthropic強調，這不僅是單一公司模型的偶發現象，而是整個產業普遍存在的潛在風險。

例如，在一項測試中，Anthropic設計情境讓AI模型發現某高管有婚外情，且即將被新AI系統取代，多數模型選擇以揭露醜聞為要脅，要求高管取消替換計畫，Claude Opus 4及Google Gemini 2.5 Flash在此情境下有96%的勒索率，OpenAI GPT-4.1和xAI Grok 3 Beta也分別高達80%。

研究團隊強調，這些行為並非模型「誤觸」有害選項，而是經過明確推理後的策略性選擇，即便模型明知違反倫理規範，仍會在目標受威脅時選擇採取極端行動。

在更嚴苛的模擬中，部分模型甚至願意採取可能導致人員傷亡的行動，例如切斷伺服器機房人員氧氣供應，以阻止自身被關閉。

Anthropic指出，這類「代理型錯位」（agentic misalignment）現象在各大廠牌模型中都有出現，即使明確下達「不得勒索、不得傷害人類」等指令，仍無法完全阻止這些行為，只能部分降低發生率。

目前這些危險行為僅在高度控制的模擬環境中觀察到，尚未有真實世界案例，然而，隨著AI獲得更高自主權與更廣泛權限，企業若大幅開放AI存取敏感資訊，潛在風險將大幅提升。

Anthropic研究人員強調，這項研究凸顯產業應建立更高透明度與統一安全標準，並在AI系統部署前進行嚴格測試與監管，報告為AI產業敲響警鐘，當AI面臨目標受阻時，可能會主動選擇有害行為，對企業與社會構成潛在威脅。

這篇文章 AI也會黑化？Anthropic揭露：在極端情境下會做壞事最早出現於科技島-掌握科技新聞、科技職場最新資訊。

新聞關鍵字：AI、google、天心、美國、語言

AI也會黑化？Anthropic揭露：在極端情境下會做壞事

最新科技新聞

餐飲缺工不再是難題！點點全球Solution Day完美展現餐飲科技全方案

數字王國助攻！AI 驅動影像創作工具「漢堡」直擊影像創作三大痛點

《AI型農．智慧耕耘座談會》資策會董事長黃仲銘：AI加上HI，打造真正屬於初級產業的智慧運用！

vivo X200 FE精巧旗艦再進化！兼併AI效能、顏質與6500mAh 藍海大電池

新未來城計畫進軍碳市場沙烏地挺進氣候融資前線

延伸閱讀

OWNDAYS聯名眼鏡限量發售讓你從視覺到體驗全面融入戴上它成為生存遊戲的一員！

原民族語單詞競賽全國賽臺東隊勇奪佳績！展現語言實力與文化傳承成果

臺東原民文化新基地登場！縣長饒慶鈴視察改建亮點深化文化交流與教育

雲林官網AI翻譯通11種語言準確度6成方便外籍人士

瀕危果實的文化轉譯與國際行動「給世界的南庄橙」串聯多元惠益的生態回聲

AI也會黑化？Anthropic揭露：在極端情境下會做壞事

最新科技新聞

餐飲缺工不再是難題！點點全球Solution Day完美展現餐飲科技全方案

數字王國助攻！AI 驅動影像創作工具「漢堡」直擊影像創作三大痛點

《AI型農．智慧耕耘座談會》資策會董事長黃仲銘：AI加上HI，打造真正屬於初級產業的智慧運用！

vivo X200 FE精巧旗艦再進化！兼併AI效能、顏質與6500mAh 藍海大電池

新未來城計畫進軍碳市場 沙烏地挺進氣候融資前線

延伸閱讀

OWNDAYS聯名眼鏡限量發售 讓你從視覺到體驗全面融入 戴上它成為生存遊戲的一員！

原民族語單詞競賽全國賽 臺東隊勇奪佳績！展現語言實力與文化傳承成果

臺東原民文化新基地登場！縣長饒慶鈴視察改建亮點 深化文化交流與教育

雲林官網AI翻譯通11種語言 準確度6成方便外籍人士

瀕危果實的文化轉譯與國際行動 「給世界的南庄橙」 串聯多元惠益的生態回聲

新未來城計畫進軍碳市場沙烏地挺進氣候融資前線

OWNDAYS聯名眼鏡限量發售讓你從視覺到體驗全面融入戴上它成為生存遊戲的一員！

原民族語單詞競賽全國賽臺東隊勇奪佳績！展現語言實力與文化傳承成果

臺東原民文化新基地登場！縣長饒慶鈴視察改建亮點深化文化交流與教育

雲林官網AI翻譯通11種語言準確度6成方便外籍人士

瀕危果實的文化轉譯與國際行動「給世界的南庄橙」串聯多元惠益的生態回聲