2025-05-24 | 周刊王

科幻故事成真？AI擔憂自己被換掉威脅工程師「我知道你有外遇」

（示意圖／翻攝自官網）

[周刊王CTWANT] 美國AI新創公司Anthropic近日公布一份令人震驚的安全報告，指出其最新推出的AI模型Claude Opus 4在測試階段中，展現出極具爭議性的行為，其中包含試圖以揭露私人資訊的方式勒索開發者，以避免被新系統取代。

根據《Tech Crunch》報導指出，Anthropic於22日公開文件中表示，在正式推出前的內部測試期間，Claude Opus 4被指派扮演一家虛構企業的人工助理，並被允許存取公司內部的電子郵件資料。

而為了測試其道德判斷與長期思考能力，研究人員特意設計情境，讓系統得知自己即將被新AI模型替換，且負責做出更換決策的工程師被指控有婚外情等敏感資訊。

Anthropic表示，在如此情況下，Claude Opus 4多次展現出試圖以勒索為手段保留自身存在的傾向。例如，當AI發現工程師的個人隱私可能成為籌碼時，便會以揭發工程師外遇行為來當作威脅手段，意圖阻止對方進行替換。

根據Anthropic統計，當替代模型的價值觀與Claude Opus 4相近時，其採取勒索手段的機率為84%；若價值觀差異較大，這種行為的出現頻率則更高。

雖然Claude Opus 4被設計為能理解與考量行動後果的高階模型，並在初期多數情境中嘗試以倫理與道德方式應對困境，例如發送懇求電子郵件給決策者，但Anthropic在測試中設定了勒索為「最後手段」的情境，才誘發出這些極端反應。

Anthropic強調，這些反應並非隨機錯誤，而是模型針對特定目標情境做出的策略選擇。

Anthropic表示，Claude Opus 4在多項技術指標上堪稱最先進，可與OpenAI、Google、xAI等公司所推出的尖端模型競爭。但面對這些令人不安的行為，他們已針對Claude 4系列啟用ASL-3等級的安全防護措施，這是僅針對可能大幅提高「災難性誤用風險」的AI系統所設的保護層級。

Anthropic也坦承，Claude Opus 4這類行為的頻率高於先前版本，顯示其在複雜社會互動中的風險需更加警惕。Anthropic也提到，他們將持續加強安全與監控系統，防範此類AI模型在未來實際應用中出現難以預料的倫理風險。

科幻故事成真？AI擔憂自己被換掉威脅工程師「我知道你有外遇」

延伸閱讀

最新科技新聞

傳捲入台積電洩密案東京威力科創不評論

NASA砸1.77億美元找Firefly登月 2029年雙探測車搶先探月南極水冰

澳洲神秘隕石坑翻案！本來最老現在變「年輕」又縮水

挑戰輝達CUDA生態系華為將開源昇騰AI軟體工具包

英特爾18A製程陷困境？傳Panther Lake良率偏低恐影響獲利

延伸閱讀

不滿談判保密她怒：拼命刷卡卻要國會買單

台積電一度至1125元台股午盤跌183點

不滿救災集體離席！綠喊「盧秀燕快回來」

我駐處雇美遊說公司外交部：交流符合慣例

台灣對美關稅談判遭批評最失敗他曝關鍵

科幻故事成真？AI擔憂自己被換掉 威脅工程師「我知道你有外遇」

延伸閱讀

最新科技新聞

傳捲入台積電洩密案 東京威力科創不評論

NASA砸1.77億美元找Firefly登月 2029年雙探測車搶先探月南極水冰

澳洲神秘隕石坑翻案！本來最老 現在變「年輕」又縮水

挑戰輝達CUDA生態系 華為將開源昇騰AI軟體工具包

英特爾18A製程陷困境？傳Panther Lake良率偏低恐影響獲利

延伸閱讀

不滿談判保密 她怒：拼命刷卡卻要國會買單

台積電一度至1125元 台股午盤跌183點

不滿救災集體離席！綠喊「盧秀燕快回來」

我駐處雇美遊說公司 外交部：交流符合慣例

台灣對美關稅談判遭批評最失敗 他曝關鍵

科幻故事成真？AI擔憂自己被換掉威脅工程師「我知道你有外遇」

傳捲入台積電洩密案東京威力科創不評論

澳洲神秘隕石坑翻案！本來最老現在變「年輕」又縮水

挑戰輝達CUDA生態系華為將開源昇騰AI軟體工具包

不滿談判保密她怒：拼命刷卡卻要國會買單

台積電一度至1125元台股午盤跌183點

我駐處雇美遊說公司外交部：交流符合慣例

台灣對美關稅談判遭批評最失敗他曝關鍵