OpenAI推出o3模型!推理能力再推高等級,為下一代AI鋪路
OpenAI 推出全新推理模型 o3,以突破性 75.7% 的 ARC-AGI 測試成績刷新紀錄,並引入「審慎對齊」技術,加強模型安全性。該模型目前開放安全測試申請,預計 2025 年初正式發布。
(前情提要: OpenAI 影片生成工具Sora正式上線!5大功能亮點、訂閱方案一次看 )
(背景補充: OpenAI 發表滿血版 o1 模型和新訂閱方案 ChatGPT Pro,月費 200 美元值得嗎? )
本文目錄
- 模型特點
- 1) 推理能力創下 SoTA 成績
- 2) 多版本選擇
- 3) 安全性強化
- 命名由來
- 邀請研究人員參與安全測試
ChatGPT 背後開發商 OpenAI 連續 12 天新品發表於昨(20)日迎來尾聲,壓軸登場的是全新的推理模型「o3」和「o3-mini」,這款 AI 模型擁有更強的推理能力,旨在解決需要逐步邏輯推理的複雜任務。
Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3 pic.twitter.com/e4dQWdLbAD
— OpenAI (@OpenAI) December 20, 2024
模型特點
1) 推理能力創下 SoTA 成績
OpenAI 聲明指出,o3 模型在多項基準測試中表現優異,包括複雜的編程、數學和科學問題,顯示出其強大的邏輯推理能力。
在由 Alignment Research Center (ARC) 開發,用於測試 AI 系統通用人工智慧(AGI)能力的「ARC-AGI」評估中,o3 在部分非公開測試中取得了 75.7% 的突破性成績,創下技術新高度(State of the Art, SoTA)。
此外,一個高計算資源版本(high-compute configuration)的 o3 在相同測試中達成了更高的 87.5% 成績,但可能由於該版本資源要求超出標準,未能符合 ARC-AGI-Pub(公開可驗證 ARC-AGI 測試結果)的資格。
New verified ARC-AGI-Pub SoTA! @OpenAI o3 has scored a breakthrough 75.7% on the ARC-AGI Semi-Private Evaluation.
And a high-compute o3 configuration (not eligible for ARC-AGI-Pub) scored 87.5% on the Semi-Private Eval.
1/4 pic.twitter.com/uQA47JWkl6
— ARC Prize (@arcprize) December 20, 2024
2) 多版本選擇
OpenAI 提供了 o3 和 o3-mini 兩個版本,後者預計於 2025 年 1 月底推出,完整版 o3 將隨後發布(並未公布具體時間)。
這款新模型採用了 OpenAI 最近推出的自適應思考時間(Adaptive Thinking Time)API,提供低、中、高三種不同的推理模式。該功能允許使用者根據需求調整模型在回答問題前的「思考」時間長度。從下圖可以看出,o3-mini 在推理結果上能與目前的 o1 模型 相媲美,但在運算成本方面則顯著降低。
3) 安全性強化
OpenAI 採用了新的「審慎對齊(Deliberative alignment)」訓練方法,直接教導大型語言模型(LLMs)理解人類撰寫的、可解釋的安全規範,並在回答問題之前確保遵守這些規範進行推理。OpenAI 在聲明中 表示 :
通過這種方法,我們成功對 OpenAI 的 o 系列模型進行了優化,使其能使用「思維鏈」(Chain-of-Thought, CoT)推理技術,反思使用者的提問,找出 OpenAI 內部政策中相關的規範文本,從而生成更安全的回應。
命名由來
值得一提的是,OpenAI 跳過了「o2」的命名,直接使用了「o3」。執行長 Sam Altman 解釋,這是為了避免與英國電信供應商 O2 產生混淆,同時展現了 OpenAI 獨特的幽默感。他在直播中表示:
「出於對 Telefónica(O2 的母公司)的尊重,以及延續 OpenAI 極度不擅長取名的優良傳統,我們將它命名為 o3。」
邀請研究人員參與安全測試
目前,o3 和 o3-mini 正處於內部安全測試階段,OpenAI 已 開放申請 ,邀請外部研究人員參與安全測試。 申請將於 2025 年 1 月 10 日截止。
對於該模型的推出,Sam Altman 毫不謙虛地 表示 ,這標誌著 AI 發展正式進入「下一階段」。
回顧今年中彭博 爆料 OpenAI 的 AI 分級表,在聊天機器人和推理模型後的下一階段便是 Agents —— 能代表使用者採取行動的先進 AI 系統。這正是當前無論是加密貨幣市場還是 Web2 領域,都在全力探索與開發的重點方向。
OpenAI 的 AI 分級系統劃分。圖源:彭博
📍相關報導📍
OpenAI發表Day2》逆天「強化學習微調」新功能,增強AI專業領域學習準確度
OpenAI 宣布將連續 12 天直播:推出許多新功能,AI 概念幣可埋伏?
OpenAI政治博弈失利,Sam Altman將難敵馬斯克與川普的「AI同盟」?
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
Coinbase 高管聲稱中本聰可能在 2014 年仍活躍於鏈上活動
簡述 Conor Grogan 聲稱比特幣的匿名創建者可能在 2014 年最後一次在鏈上活躍。Grogan 還建議中本聰可能曾使用加拿大加密貨幣交易所 CaVirtEx,該交易所在 2016 年被 Kraken 收購。
Hex Trust 在由 Morgan Creek Digital 領投的戰略融資輪中籌得逾 100 億美元
簡單來說 Hex Trust 完成了由 Morgan Creek Digital 領投、全球投資者支持的策略融資,籌集了超過 100 億美元,為 2025 年底的 C 輪融資做準備。
Morph 推出 Morph Pay、Bridging DeFi 以及面向日常用戶的傳統銀行業務
簡單來說 Morph 推出了 Morph Pay,提供整合金融生態系統,融合了創新和獲利潛力 DeFi 具有傳統銀行的可近性和便利性。
摩根大通表示以太坊可能會繼續面臨來自其他網絡的「激烈競爭」
摩根大通分析師表示,隨著競爭對手區塊鏈的競爭加劇,以太坊的表現不佳。根據分析師的說法,以太坊的市值份額已降至四年來的低點,並可能面臨持續的壓力。