臺北市
33°
( 34° / 31° )
氣象
2025-06-18 | 科技島

AI巨頭用「寶可夢」對決 Google Gemini與Anthropic Claude誰比較會玩遊戲?


AI巨頭用「寶可夢」對決 Google Gemini與Anthropic Claude誰比較會玩遊戲?


在AI產業競爭白熱化之際,Google與Anthropic不僅在技術上較勁,還將戰場延伸至經典遊戲《寶可夢》,Google Gemini 2.5 Pro成功挑戰《寶可夢藍版》,但在關鍵時刻卻出現推理混亂、決策失誤等行為,當面臨寶可夢即將陣亡時,竟會出現類似恐慌的行為,或是推理能力下降。記者鄧天心/綜合報導


在AI產業競爭白熱化之際,Google與Anthropic不僅在技術上較勁,還將戰場延伸至經典遊戲《寶可夢》,Google Gemini 2.5 Pro成功挑戰《寶可夢藍版》,但在關鍵時刻卻出現推理混亂、決策失誤等行為,當面臨寶可夢即將陣亡時,竟會出現類似恐慌的行為,或是推理能力下降。


[caption id="attachment_177675" align="aligncenter" width="1024"]
AI巨頭用「寶可夢」對決 Google Gemini與Anthropic Claude誰比較會玩遊戲?
Gemini與Claude的「寶可夢」對決,讓外界看到現階段AI在壓力與複雜情境下的極限與潛力。(圖/精靈寶可夢官網)[/caption]


延伸閱讀:


不再鎖定單商店、裝置 微軟攜手AMD開發次世代Xbox主機


友誼保衛戰開打!《樂高派對》多元迷你遊戲填補瑪利歐派對空缺


OpenAI宣布獲美國國防部2億美元合約 全面升級行政、國防AI應用


AI模型遊戲實驗 推理過程全公開


所謂AI基準測試(AI benchmarking),即比較不同AI模型表現的過程,雖然常被質疑缺乏真實場景參考價值,但部分研究者認為,觀察AI如何玩遊戲,有助於理解其推理與決策。


過去數月,兩位獨立開發者分別設立Twitch頻道「Gemini Plays Pokémon」與「Claude Plays Pokémon」,能即時觀看AI挑戰這款超過25年歷史的兒童遊戲,每場直播會同步顯示AI的「推理」過程,讓外界窺見AI如何拆解問題並做出決策。


Gemini完成一場遊戲需要數百小時,加上Gemini 2.5 Pro在遊戲過程中多次出現「恐慌」狀態,突然停止使用某些工具,推理能力下降,類似人類在壓力下做出決策,這也被Twitch聊天室觀眾發現。


雖然Gemini 2.5 Pro在玩遊戲時還有不少有待改進的部分,但它在解決遊戲裡的複雜謎題時表現出色,例如,只要給它一些簡單提示和規則說明,它就能一次成功破解「勝利之路」的巨石謎題,推理能力甚至比一般玩家還要強。隨著AI技術不斷進步,遊戲也成為測試AI推理和決策能力的新方式。Google甚至認為,未來Gemini有機會完全靠自己創造解題工具,不需要人類幫忙。


這篇文章 AI巨頭用「寶可夢」對決 Google Gemini與Anthropic Claude誰比較會玩遊戲? 最早出現於 科技島-掌握科技新聞、科技職場最新資訊

Google新聞-PChome Online新聞

最新科技新聞

延伸閱讀