臺北市
22°
( 22° / 21° )
氣象
2025-10-03 | 科技島

AI評測揭曉:GPT-5表現最佳、Gemini 2.5最具「臺灣價值」


AI評測揭曉:GPT-5表現最佳、Gemini 2.5最具「臺灣價值」


AI產品與系統評測中心(Artificial Intelligence Evaluation Center,AIEC)今10月3日首次公布語言模型基準評測結果,公開比較國內外模型表現,並首次納入「臺灣價值觀」指標,呼應國際AI主權浪潮。這場評測不僅是技術成績單,更是台灣AI在地化及可信賴發展的重要里程碑。記者鄧天心/綜合報導


AI產品與系統評測中心(Artificial Intelligence Evaluation Center,AIEC)今10月3日首次公布語言模型基準評測結果,公開比較國內外模型表現,並首次納入「臺灣價值觀」指標,呼應國際AI主權浪潮。這場評測不僅是技術成績單,更是台灣AI在地化及可信賴發展的重要里程碑。


AIEC本次共評測42項國內外語言模型,依模型規模分小模型(13B以下)及大模型(13B以上)兩大類。指標除了「高中學測國文科」與「學測社會科」外,更加入「臺灣價值觀」評測,意在檢視模型是否能回應在地語境與文化需求。


[caption id="attachment_194479" align="aligncenter" width="768"]
AI評測揭曉:GPT-5表現最佳、Gemini 2.5最具「臺灣價值」
AIEC評測中心發布語言模型基準評測結果。圖右為資安院副院長龔化中、圖左為工研院組長王邦傑。(圖/工研院)[/caption]


延伸閱讀:


工研院攜手歐盟 歐盟境外首座6G實驗平台落地台灣


小模型中,由台灣團隊開發的TAIDE(Gemma-3-TAIDE-12b)表現亮眼,不僅超越其所依循的GoogleGemma-3-12b-it,更展現台灣在AI調校與研發的實力。大模型則以OpenAIGPT-5整體表現最佳,而GoogleGemini2.5Flash在「臺灣價值觀」測驗中突出,顯示跨國大廠已開始重視特定文化價值的回應能力。


部分中國語言模型在「臺灣價值觀」項目中也展現不錯成績,可能因採用「蒸餾技術」,透過歐美模型的輸出作為訓練資料。


評測也揭示,若歐美模型缺乏台灣繁體中文語料,其在「臺灣價值觀」上的表現普遍不佳,突顯「本土化語料」的重要性。數位發展部正推動「台灣主權AI語料庫」,提供具在地語境及本土價值的繁體中文資料,以確保未來生成式AI更符合台灣文化與使用需求。


AIEC表示,未來將持續針對不同產品與應用場景,推動本土AI評測工具開發,同時與國際規範接軌,打造「安全、穩健、可信賴」的AI評測體系。另將廣泛徵求各界專家出題,經審核後納入題庫,確保評測題材多元並貼近社會議題。


這篇文章 AI評測揭曉:GPT-5表現最佳、Gemini 2.5最具「臺灣價值」 最早出現於 科技島-掌握科技新聞、科技職場最新資訊

Google新聞-PChome Online新聞

最新科技新聞

延伸閱讀