只花20美元+26分鐘 AI教母李飛飛復刻DeepSeek R1推理模型
花費 20 美元、半小時不到的時間就能訓練出一個媲美 DeepSeek-R1 和 OpenAI o1 的推理模型?!
花費 20 美元、半小時不到的時間就能訓練出一個媲美 DeepSeek-R1 和 OpenAI o1 的推理模型?!
[caption id="attachment_163529" align="alignnone" width="1200"]
花費 20 美元、半小時不到的時間就能訓練出一個媲美 DeepSeek-R1 和 OpenAI o1 的推理模型?!(圖/取自X@deepseek_ai)[/caption]
被譽為「AI 教母」的知名華裔美籍科學家李飛飛,其團隊最近發布一篇新論文,令人震驚的是,他們成功降低了復刻 DeepSeek R1 推理模型的成本。根據論文內容,利用阿里系開源的 Qwen2.5-32B-Instruct 模型進行監督微調(SFT),僅需在 16 個輝達 H100 GPU 上訓練 26 分鐘,而所需的算力租賃成本約為 20 美元。
研究人員指出,這種省時省錢的模型在數學競賽類問題上的表現甚至超過了 OpenAI 的 o1 預覽版,實驗結果顯示,s1-32B 的成績在 MATH 和 AIME24 數據集上超出 o1-preview 多達 27%。李飛飛團隊的研究成果已在 GitHub 上開源,連結為 https://github.com/simplescaling/s1。
此外,研究團隊還提出了一種名為「預算控制」(budget forcing)的策略,旨在調整測試時的運算資源。具體方法是強制終止模型的推理過程,或在生成內容時多次附加「Wait」,以延長模型的思考時間。這種方法能夠促使模型自我檢查答案,從而修正錯誤的推理步驟。在論文中,研究者以經典的數 R 問題為例,展示了這個策略的有效性。
李飛飛團隊的 s1 模型可視為 Qwen2.5 和 Gemini 2.0 Flash Thinking Experimental 的結合體。透過精心篩選的 1000 個問題及其答案,研究人員記錄了 Gemini 2.0 Flash 的 “思考過程”,並利用這些資料建立訓練集,對 Qwen2.5-32B-Instruct 進行微調。
有趣的是,這種做法可能違反了 Google 的使用條款,Google 禁止使用者對其模型進行逆向工程以開發競爭產品。對此,谷歌尚未回應。
在論文中,研究人員強調,s1 模型希望找到實現強推理能力和「測試時擴展」的最簡單方法。與 DeepSeek 的「大規模強化學習」方法相比,SFT 的成本顯著降低,因為它使用的是高品質的標註數據,且只需少量樣本即可獲得良好性能。
李飛飛團隊的這項研究再次引發了業界的關注。僅需 20 美元的投入和半小時的訓練時間,就能達到與 OpenAI 等公司數百萬美元成果相媲美的效果。這無疑為學界的研究人員提供了新的機遇,使他們無需巨額資金即可在 AI 領域取得創新突破。
然而,推理模型的未來「商品化」仍然是一個值得關注的問題。如果少量資金就能複製出價值數百萬美元的 AI 模型,企業的競爭優勢又將何在?儘管蒸餾是一種有效的複現方法,但仍需有志向的創新者和巨人來推動 AI 的發展。
(本文已獲鉅亨網同意授權刊出)
這篇文章 只花20美元+26分鐘 AI教母李飛飛復刻DeepSeek R1推理模型 最早出現於 科技島-掌握科技新聞、科技職場最新資訊。
最新科技新聞
-
-
只花20美元+26分鐘 AI教母李飛飛復刻DeepSeek R1推理模型
(4 小時前) -
Xbox主機維修更輕鬆了 微軟推動「永續遊戲生態」
(4 小時前) -
官方微博上線!傳小米AI眼鏡將提前發表 專家:今年是爆發元年
(4 小時前) -
深化台波科技合作!吳誠文:臺灣願維護民主世界的韌性供應鏈
(4 小時前)