DeepSeek有對手了？「AI教母」出手太震撼，頂尖AI模型花不到50美元

by AllenKung · 2025 年 2 月 7 日

DeepSeek的強敵來了！由被譽為「AI教母」的華裔美籍科學家李飛飛領導的團隊，以不到50美元（約台幣1600元）的雲端運算成本，成功訓練出名為「s1」的人工智慧推理模型。該模型在數學與編碼能力測驗中的表現，據稱可媲美 OpenAI o1與DeepSeek R1等頂級推理模型。

根據《科創板日報》和新浪科技報導，s1模型並非從零訓練，而是基於阿里巴巴的Qwen2.5與Google DeepMind的Gemini 2.0 Flash Thinking改良而來。李飛飛團隊精選1000道問題與解答，並記錄Gemini 2.0 Flash的思考過程，建立訓練資料集，然後利用這些數據微調Qwen2.5-32B-Instruct模型，最終打造出s1。

業界專家對此表示，李飛飛團隊的成就，實際上是利用來自Google模型的1000個樣本，對通義千問模型進行微調。雖然成本低廉，但模型的高效能仍依賴於強大的基礎模型。

關鍵在於基礎模型，s1只是「微調」的成果？

上海交通大學人工智慧學院副教授謝偉迪指出，s1的核心仍是通義千問（Qwen）模型，這意味著即便只使用有限的樣本資料，也能創造出新的推理模型。然而，若更換其他基礎模型，新模型的效能並不會因此提升，因此真正發揮關鍵作用的其實是Qwen模型，而非s1本身。

阿里雲證實，李飛飛團隊透過微調Qwen2.5-32B-Instruct模型，在16個NVIDIA H100 GPU上僅花費26分鐘便完成訓練，成功打造出s1-32B。其數學與編碼能力，竟能與OpenAI o1和DeepSeek R1等尖端推理模型相抗衡，讓外界驚嘆AI微調技術的潛力。

DeepSeek有對手了？「AI教母」出手太震撼，頂尖AI模型花不到50美元

You may also like...

近期文章

DeepSeek有對手了？「AI教母」出手太震撼，頂尖AI模型花不到50美元

你可能也會喜歡:

You may also like...

北海道始慎防規模9強震，專家: 恐奪20萬人命

全聯這飲品「買1送4」超霸氣，一票人笑：這麼怕沒人要？

小S告假《不熙娣》回歸日期未定，代班主持人出爐

近期文章