AI極限測試「人類最後考驗」 測驗結果揭露AI重大弱點
人工智慧(AI)發展速度驚人,OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而,現在有一場全新的測試「人類最後考驗」(Humanity's Last Exam),正將AI推向極限。
人工智慧(AI)發展速度驚人,OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而,現在有一場全新的測試「人類最後考驗」(Humanity's Last Exam),正將AI推向極限。這項新指標專門設計來挑戰AI的極限,其結果令人震驚,顛覆了人們對AI能力的認知。
[caption id="attachment_162631" align="alignnone" width="1200"]
人類仍然擁有無可取代的智慧,而AI還只是輔助工具,而非真正的思考者。(示意圖/123RF)[/caption]
「人類最後考驗」由誰開發?
這項測試由ScaleAI和AI安全中心(CAIS)聯手研發,目的是檢驗AI在最高水準下的推理能力。過去許多AI測試難度有限,導致大型語言模型(LLM)如GPT-4o和Gemini 1.5 Pro屢屢以90%以上的高分通過,使AI真正的進步變得難以衡量。為了解決這個問題,CAIS共同創辦人Dan Hendrycks指出,「目前的AI測試標準已經無法反映AI持續進步的難度,因此我們設計了『人類最後考驗』,來檢驗AI是否能達到人類專家級的推理水準。」
更多新聞:對抗Deepseek!OpenAI推「深度研究」新AI助理 準確度超高
「人類最後考驗」考些什麼?
測試包含3,000道極高難度的問題,涵蓋超過100個領域,由來自50個國家、500多個機構的專家負責命題。目標是確定AI是否真正具備人類專家級的推理能力,而不僅僅是識別模式或記憶數據。
這些問題並非簡單的選擇題,而是包含:
- 文字與多模態(multi-modal)題型,有些涉及圖片和圖表;
- 複雜的多步邏輯推理題,要求AI逐步解決問題;
- 數學、科學、人文等領域的專業知識測驗,要求AI深入理解概念,而非僅靠關鍵字比對。
AI參與測試結果令人震驚
在最終測試中,OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.5 Pro均接受挑戰。然而,結果卻出乎意料。即使是最先進的AI,正確率竟然不到10%。這一成績顯示,即便是目前最強的AI模型,仍然難以達到人類專家的推理能力。然而,OpenAI的新「深度研究」AI助理,卻在這項測試上創下26.6%的新高準確率,令人驚艷。
為何AI在考試中表現不佳?
儘管AI擅長識別模式,但在真正的推理與邏輯分析上仍然存在弱點。專家指出,AI經常產生「幻覺」(hallucination),即AI會自信地輸出錯誤資訊。此外,AI也缺乏「自我校準」能力,往往無法分辨自己何時出錯。
Scale AI研究總監Summer Yue表示,「我們設計了可能是AI史上最艱難的測試,要求AI進行精確的多步推理,並產生毫無歧義的答案。」這項測試揭露AI並非真正「理解」知識,而只是依賴模式識別來猜測答案。
未來AI測試如何發展?
為確保未來的AI測試仍然具有挑戰性,CAIS和Scale AI計畫公開部分測試數據,讓研究人員持續評估AI的推理能力。然而,為防止AI透過記憶答案來作弊,部分題目將保持機密,確保未來測試的公平性。
「人類最後考驗」為AI發展敲響了一記警鐘,證明AI距離真正的專家級推理能力仍有很長的路要走。然而,這或許是一件好事,因為這代表人類仍然擁有無可取代的智慧,而AI還只是輔助工具,而非真正的思考者。
參考資料:news9live
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
這篇文章 AI極限測試「人類最後考驗」 測驗結果揭露AI重大弱點 最早出現於 科技島-掌握科技新聞、科技職場最新資訊。
最新科技新聞
-
-
中國2024智慧手機市場成長1.5% 華為狠甩小米、vivo成最大贏家
(34 分鐘前) -
因應DeepSeek狂潮 OpenAI與韓國Kakao結盟
(43 分鐘前) -
信邦1月營收27.59億元 創歷年同期新高
(52 分鐘前) -
川普想在4年內送太空人上火星?專家質疑SpaceX能否達成
(1 小時前)