简
繁

斯坦福研究員以不到 50 美元的價格創建 AI 「推理」模型，聲稱表現媲美 OpenAI 的 o1！

2025/02/06 17:12

zombit jeff

斯坦福大學與華盛頓大學的人工智慧研究人員在最新發布的研究論文中指出，他們成功以不到 50 美元的雲端計算成本，訓練出一個 AI 推理模型，且表現媲美 OpenAI 的 o1。

Table of Contents

s1 是如何訓練的？

據報導，該模型名為 s1，在數學與編程能力測試中，表現媲美 OpenAI 的 o1 以及 DeepSeek 的 R1 等最先進的推理模型。s1 的模型、數據及訓練代碼均已公開於 GitHub。

研究團隊表示，他們以一個現成的基礎模型為起點，並透過「蒸餾」技術進行微調。蒸餾（distillation）是一種從另一個 AI 模型的答案中提取「推理」能力的方法。斯坦福研究員 Niklas Muennighoff 表示，訓練過程若使用 16 張 Nvidia H100 GPU，不到 30 分鐘便可完成。

Niklas Muennighoff 進一步強調，他現在只需花費約 20 美元便可租用計算資源實現訓練。

s1 是從 Google 的推理模型 —— Gemini 2.0 Flash Thinking Experimental 蒸餾而來。這與上個月柏克萊大學研究人員用約 450 美元訓練 AI 推理模型的方式類似。對某些人來說，少數研究人員即便沒有數百萬美元的資金支持，仍能在 AI 領域創新，這是一件令人興奮的事。

但目前 Google 雖然允許用戶透過 Google AI Studio 平台免費存取 Gemini 2.0 Flash Thinking Experimental（但每日有限制）。然而，Google 的條款明確表示「禁止用戶逆向工程其模型，以開發與其 AI 產品競爭的服務」。目前 Google 尚未對此事發表評論。

AI 巨頭不開心

這種行爲對於大型 AI 實驗室而言肯定不樂見。OpenAI 此前就曾指控 DeepSeek 不當使用其 API 數據來進行模型蒸餾。

研究人員的目標是找到最簡單的方法來實現強大的推理能力與「測試時擴展」（test-time scaling）—— 讓 AI 模型在回答問題前能「多思考一下」。這些技術是 OpenAI o1 模型的突破點，而 DeepSeek 與其他 AI 實驗室正試圖透過不同技術來複製這些能力。

根據 s1 的論文，推理模型可以透過相對較小的數據集，使用「監督式微調」（SFT）進行蒸餾。SFT 讓 AI 模型在數據集中明確學習並模仿特定行為。

相比之下，DeepSeek 先前採用了大規模強化學習來訓練其對標 OpenAI o1 的模型 R1，而 SFT 方法的成本通常更低。

大公司的「護城河」在哪裡？

2025 年，Meta、Google 和微軟計劃投資數千億美元來發展 AI 基礎設施，其中部分資金將用於訓練新一代 AI 模型。

而 s1 與 DeepSeek 等模型的訓練引發了關於 AI 模型商品化的討論。如果一個成本數百萬美元的 AI 模型能被低成本複製，那麼這些大公司的「護城河」在哪裡呢？

然而，這樣的大額投資或許仍是推動 AI 創新的必要條件。因為儘管蒸餾技術可以廉價地重現現有 AI 模型的能力，但它並不會創造出比當前模型大幅更強的 AI。

加入桑幣的社群平台，跟我們一起討論加密貨幣新資訊！

tags:

zombit jeff

桑幣快訊

桑幣熱門榜

zombie

桑幣正在徵文中，我們想要讓好的東西讓更多人看見！
只要是跟金融科技、區塊鏈及加密貨幣相關的文章，都非常歡迎向我們投稿
投稿信箱：[email protected]