DeepSeek有對手了?「AI教母」出手太震撼,頂尖AI模型花不到50美元

DeepSeek的強敵來了!由被譽為「AI教母」的華裔美籍科學家李飛飛領導的團隊,以不到50美元(約台幣1600元)的雲端運算成本,成功訓練出名為「s1」的人工智慧推理模型。該模型在數學與編碼能力測驗中的表現,據稱可媲美 OpenAI o1與DeepSeek R1等頂級推理模型。

根據《科創板日報》和新浪科技報導,s1模型並非從零訓練,而是基於阿里巴巴的Qwen2.5與Google DeepMind的Gemini 2.0 Flash Thinking改良而來。李飛飛團隊精選1000道問題與解答,並記錄Gemini 2.0 Flash的思考過程,建立訓練資料集,然後利用這些數據微調Qwen2.5-32B-Instruct模型,最終打造出s1。

業界專家對此表示,李飛飛團隊的成就,實際上是利用來自Google模型的1000個樣本,對通義千問模型進行微調。雖然成本低廉,但模型的高效能仍依賴於強大的基礎模型。

關鍵在於基礎模型,s1只是「微調」的成果?

上海交通大學人工智慧學院副教授謝偉迪指出,s1的核心仍是通義千問(Qwen)模型,這意味著即便只使用有限的樣本資料,也能創造出新的推理模型。然而,若更換其他基礎模型,新模型的效能並不會因此提升,因此真正發揮關鍵作用的其實是Qwen模型,而非s1本身。

阿里雲證實,李飛飛團隊透過微調Qwen2.5-32B-Instruct模型,在16個NVIDIA H100 GPU上僅花費26分鐘便完成訓練,成功打造出s1-32B。其數學與編碼能力,竟能與OpenAI o1和DeepSeek R1等尖端推理模型相抗衡,讓外界驚嘆AI微調技術的潛力。

You may also like...