2025-02-04 | 科技島

AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點

人工智慧（AI）發展速度驚人，OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而，現在有一場全新的測試「人類最後考驗」（Humanity's Last Exam），正將AI推向極限。編譯／夏洛特

人工智慧（AI）發展速度驚人，OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而，現在有一場全新的測試「人類最後考驗」（Humanity's Last Exam），正將AI推向極限。這項新指標專門設計來挑戰AI的極限，其結果令人震驚，顛覆了人們對AI能力的認知。

[caption id="attachment_162631" align="alignnone" width="1200"]
AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點
人類仍然擁有無可取代的智慧，而AI還只是輔助工具，而非真正的思考者。（示意圖／123RF）[/caption]

「人類最後考驗」由誰開發？

這項測試由ScaleAI和AI安全中心（CAIS）聯手研發，目的是檢驗AI在最高水準下的推理能力。過去許多AI測試難度有限，導致大型語言模型（LLM）如GPT-4o和Gemini 1.5 Pro屢屢以90%以上的高分通過，使AI真正的進步變得難以衡量。為了解決這個問題，CAIS共同創辦人Dan Hendrycks指出，「目前的AI測試標準已經無法反映AI持續進步的難度，因此我們設計了『人類最後考驗』，來檢驗AI是否能達到人類專家級的推理水準。」

更多新聞：對抗Deepseek！OpenAI推「深度研究」新AI助理準確度超高

「人類最後考驗」考些什麼？

測試包含3,000道極高難度的問題，涵蓋超過100個領域，由來自50個國家、500多個機構的專家負責命題。目標是確定AI是否真正具備人類專家級的推理能力，而不僅僅是識別模式或記憶數據。

這些問題並非簡單的選擇題，而是包含：

文字與多模態（multi-modal）題型，有些涉及圖片和圖表；

複雜的多步邏輯推理題，要求AI逐步解決問題；

數學、科學、人文等領域的專業知識測驗，要求AI深入理解概念，而非僅靠關鍵字比對。

AI參與測試結果令人震驚

在最終測試中，OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet，以及Google的Gemini 1.5 Pro均接受挑戰。然而，結果卻出乎意料。即使是最先進的AI，正確率竟然不到10%。這一成績顯示，即便是目前最強的AI模型，仍然難以達到人類專家的推理能力。然而，OpenAI的新「深度研究」AI助理，卻在這項測試上創下26.6%的新高準確率，令人驚艷。

為何AI在考試中表現不佳？

儘管AI擅長識別模式，但在真正的推理與邏輯分析上仍然存在弱點。專家指出，AI經常產生「幻覺」（hallucination），即AI會自信地輸出錯誤資訊。此外，AI也缺乏「自我校準」能力，往往無法分辨自己何時出錯。

Scale AI研究總監Summer Yue表示，「我們設計了可能是AI史上最艱難的測試，要求AI進行精確的多步推理，並產生毫無歧義的答案。」這項測試揭露AI並非真正「理解」知識，而只是依賴模式識別來猜測答案。

未來AI測試如何發展？

為確保未來的AI測試仍然具有挑戰性，CAIS和Scale AI計畫公開部分測試數據，讓研究人員持續評估AI的推理能力。然而，為防止AI透過記憶答案來作弊，部分題目將保持機密，確保未來測試的公平性。

「人類最後考驗」為AI發展敲響了一記警鐘，證明AI距離真正的專家級推理能力仍有很長的路要走。然而，這或許是一件好事，因為這代表人類仍然擁有無可取代的智慧，而AI還只是輔助工具，而非真正的思考者。

參考資料：news9live

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

這篇文章 AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點最早出現於科技島-掌握科技新聞、科技職場最新資訊。

新聞關鍵字：AI、ChatGPT、google、人工智慧、語言

AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點

「人類最後考驗」由誰開發？

「人類最後考驗」考些什麼？

AI參與測試結果令人震驚

為何AI在考試中表現不佳？

未來AI測試如何發展？

最新科技新聞

美國TikTok禁令風波持續川普稱交易即將達成可能結局有這些！

互動資通重磅發佈AI數位轉型整體服務「GECP」

印尼學者：盼台積電助攻半導體發展根留台灣最重要

【林宏文專欄】資本支出是台灣國防經費的2倍台積電美國1650億美元的投資，有困難嗎？

阿里巴巴推出新AI模型「通義千問」參數比DeepSeek更少！但效能差不多？

延伸閱讀

千萬旅客目標不變陳世凱整頓觀光要爭取高端客

「化龍吉市」台語市集打造宜蘭母語春日盛宴

日本WAFUU.COM推出加密貨幣支付功能，現在共支援16種加密貨幣、83種電子錢包以及22間交易所

Boomi 推出 AI Studio 提供全方位 AI 代理工具管控功能

台大雲林分院引進狗醫生陪伴安寧病患：心要融化了

AI極限測試「人類最後考驗」 測驗結果揭露AI重大弱點

「人類最後考驗」由誰開發？

「人類最後考驗」考些什麼？

AI參與測試結果令人震驚

為何AI在考試中表現不佳？

未來AI測試如何發展？

最新科技新聞

美國TikTok禁令風波持續 川普稱交易即將達成 可能結局有這些！

互動資通重磅發佈AI數位轉型整體服務 「GECP」

印尼學者：盼台積電助攻半導體發展 根留台灣最重要

【林宏文專欄】資本支出是台灣國防經費的2倍 台積電美國1650億美元的投資，有困難嗎？

阿里巴巴推出新AI模型「通義千問」參數比DeepSeek更少！但效能差不多？

延伸閱讀

千萬旅客目標不變 陳世凱整頓觀光要爭取高端客

「化龍吉市」台語市集 打造宜蘭母語春日盛宴

日本WAFUU.COM推出加密貨幣支付功能，現在共支援16種加密貨幣、83種電子錢包以及22間交易所

Boomi 推出 AI Studio 提供全方位 AI 代理工具管控功能

台大雲林分院引進狗醫生陪伴 安寧病患：心要融化了

AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點

美國TikTok禁令風波持續川普稱交易即將達成可能結局有這些！

互動資通重磅發佈AI數位轉型整體服務「GECP」

印尼學者：盼台積電助攻半導體發展根留台灣最重要

【林宏文專欄】資本支出是台灣國防經費的2倍台積電美國1650億美元的投資，有困難嗎？

千萬旅客目標不變陳世凱整頓觀光要爭取高端客

「化龍吉市」台語市集打造宜蘭母語春日盛宴

台大雲林分院引進狗醫生陪伴安寧病患：心要融化了