免费用户也可使用 o3 mini 推理模型了!
作者|赵健
来源 | 甲子光年
北京时间 2 月 1 日凌晨,OpenAI 正式发布 o3-mini,这是 OpenAI 推理系列中最新、最具成本效益的模型,已在 ChatGPT 和 API 中开放使用。
这可以看作 OpenAI 对过去一周多风靡美国市场的 DeepSeek 的回应。
在 o3 mini 发布的同时,OpenAI 高管团队还在 Reddit 上举办了一场线上的 AMA(ask me anything),回答有关 o3 mini 以及 AI 发展相关的一切问题。
在被问及是否会考虑发布一些模型权重以及一些研究时,OpenAI 首席执行官 Sam Altman 首次承认:“我个人认为,我们在这里站在了历史的错误一边,需要找出一个不同的开源策略。OpenAI 中并非所有人都认同这一观点,这也不是我们当前的最高优先事项。”
此外,OpenAI 高管团队还讨论了 o3 mini 的功能、价格以及其他产品更新、算力等相关的话题。
可以说,如果没有 DeepSeek,OpenAI 不会这么快做出回应,无论是模型还是言论。
1. OpenAI 首次将推理模型开放给免费用户
本次发布的 o3-mini 在 2024 年 12 月发布了预览版本,是 OpenAI 首个支持高度请求的开发者功能的小型推理模型,包括函数调用、结构化输出和开发者消息。o3-mini 将支持流式传输,开发者还可以在三种推理努力选项——低、中、高——之间进行选择,以优化其特定用例。这种灵活性使得 o3-mini 在解决复杂挑战时可以“更努力地思考”,或者在延迟是关键问题时优先考虑速度。但是 o3-mini 不支持视觉能力,因此开发者应继续使用 OpenAI o1 进行视觉推理任务。
OpenAI 表示 o3-mini 突破了小型模型所能实现的界限,提供了卓越的 STEM(Science、Technology、Engineering、Mathematics)功能,尤其擅长科学、数学和编码,同时保持了 o1-mini 的低成本和低延迟。专家测试人员的评估表明,与 OpenAI o1-mini 相比,o3-mini 的答案更准确、更清晰,推理能力更强。
OpenAI 表示,测试人员在 56% 的时间里更喜欢 o3-mini 的回答,并观察到在困难的现实问题上重大错误减少了 39%。在中等推理努力下,o3-mini 在一些最具挑战性的推理和智力评估(包括 AIME 和 GPQA)上的表现与 o1 相当。
o3 mini 在数学竞赛 AIME 2024 的成绩表现,图片来自 OpenAI
价格层面,OpenAI 提供了不同的套餐设置:Pro 用户将可以无限制访问 o3-mini,而 Plus 和 Team 用户将拥有三倍的速率限制(与 o1-mini 相比);免费用户可以通过选择消息编写器下方的“Reason”按钮在 ChatGPT 中尝试 o3-mini。
这是 OpenAI 首次将推理模型开放给免费用户,此前发布的 o1 模型只有 ChatGPT plus 会员可以使用。而免费开放的原因其实也很显然,那就是被 DeepSeek 免费且开源的 R1 给卷到了。
不过,ChatGPT plus 会员会享有更高版本的模型“o3-mini-high”,它会思考得更深入,并给出更好的答案。
作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从每天 50 条消息(使用 o1-mini)提高到每天 150 条消息(使用 o3-mini)。此外,o3-mini 现在可以与搜索功能配合使用,以查找最新的答案并链接到相关的网络资源。这是 OpenAI 将搜索功能整合到推理模型中的早期原型。
在安全层面,OpenAI 用来教 o3-mini 安全响应的关键技术之一是审慎对齐,即在回答用户提示之前,训练模型推理人类编写的安全规范。与 OpenAI o1 类似,o3-mini 在具有挑战性的安全性和越狱评估方面明显超越了 GPT-4o。在部署之前,OpenAI 表示仔细评估了 o3-mini 的安全风险,采用了与 o1 相同的准备、外部红队和安全评估方法。
2. OpenAI 团队回答一切
OpenAI 高管团队在 Reddit 上举办了一场线上的 AMA(ask me anything),回答有关 o3 mini 以及 AI 发展相关的一切问题。
参与本次活动的共 6 人,包括首席执行官 Sam Altman、首席研究官 Mark Chen、首席产品官 Kevin Weil、工程副总裁 Srinivas Narayanan、API 研究主管 Michelle Pokrass、研究主管 Hongyu Ren。
首先是大家最关心的关于 DeepSeek 的焦点问题。
有用户表示显然这是一个非常令人印象深刻的模型,这会如何改变 OpenAI 对未来模型的计划?
Sam Altman 此前对于 DeepSeek 评价很高,这次也给出了类似的评价。他回复称:“这是一个非常好的模型!我们将生产出更好的模型,但领先优势将比前几年有所减弱。”
鉴于 DeepSeek 在开源领域取得的成功,有人问 OpenAI 是否考虑发布一些模型权重并发表一些研究?
Sam Altman 对此回应称:“是的,我们正在讨论。我个人认为,我们在这里站在了历史的错误一边,需要找出一个不同的开源策略;OpenAI 中并非所有人都认同这一观点,这也不是我们当前的最高优先事项。”
这似乎是 Sam Altman 首次正面承认 OpenAI 的闭源“是一个错误”。但 OpenAI 是否会真正开源?这恐怕将是一个艰难的选择。
第二个集中话题是关于 o3 mini 的产品功能。
首先是价格问题。有人对比发现,o3 mini 的价格与 Deepseek 和 Gemini 相比仍然没有竞争力。比如,在百万 tokens 规模下,Deepseek R1 的 API 输入价格(缓存命中)为 0.14 美元,输出价格为 2.19 美元,而 o3 mini 的输入价格为 0.55 美元,输出价格为 4.40 美元。
DeepSeek API 价格,deepseek-chat 指的是 DeepSeek-V3.,deepseek-reasoner 指的是 DeepSeek-R1,图片来自 DeepSeek 官网
O 系列推理模型价格,图片来自 OpenAI 官网
OpenAI API 研究主管 Michelle Pokrass 对此回应:“我们发现 o3-mini 与美国托管的 Deepseek 版本相比具有竞争力。我们认为对于这种级别的智能来说,这是一个真正实惠的选择。”
OpenAI 会计划提高 plus 会员的价格吗?Sam Altman 回应称:“实际上我想随着时间的推移减少它。”
大模型推理成本的下降是一个必然趋势。OpenAI 在发布 o3 mini 时表示,该模型延续了其降低智能成本的记录——自推出 GPT-4 以来,每个 token 的价格降低了 95%——同时保持了顶级的推理能力。
针对 o3 mini 的价格,OpenAI 制定了不同的套餐模式。有人问,为什么当 plus 用户拥有大量 o3-mini-high 限额时,订阅 PRO 版本仍然值得?
Sam Altman 回应称,如果你认为 o1 pro 还算值得,那么你应该认为 o3 pro 超级值得。
工程副总裁 Srinivas Narayanan 进一步解释:“我们现在有 o1 专业模式,还有操作员模式。我们可能会继续有更多方法使用更多计算来解决专业级的难题。是的,专业用户喜欢无速率限制。”
其次是思维链的展示问题。o3 mini 并不像 DeepSeek R1 那样给出非常详细的思维链过程,而是非常简洁。
o3 mini 的思维链展示
DeepSeek R1 的思维链展示
于是有用户提问,我们能看看所有的思考标记吗?
首席产品官 Kevin Weil 回复称:“我们正在努力展示比今天更多的内容——很快就会实现。所有内容都有待确定,展示所有 CoT 会导致竞争性提炼,但我们也知道人们(至少是高级用户)想要它,所以我们会找到正确的方法来平衡它。”
关于 o3 mini 知识库的时间更新问题,有用户表示不理解。“在我支付了 plus 费用之前,GPT-4o 拥有的知识截止到 2024 年 6 月,但是现在我支付了 plus 费用,知识截止时间又改回了 2023 年 10 月。为什么会这样?”
Sam Altman 对此回应称:“现在我们已经启用了搜索功能,这一点就不再那么重要了——就我自己的使用而言,我再也没有考虑过知识截止的问题了。”
OpenAI 本次发布的是 o3 mini,于是有人问完整版本 o3 何时首次亮相?
Sam Altman 一如既往开始画饼:“我猜会是几周以上,几个月以下。”
第三个话题集中在其他产品更新,也就是 OpenAI 曾经发布的“期货”产品何时兑现。
有用户关心 4o 图像生成器是否还会发布,这是大约一年前 OpenAI 发布的功能。GPT-4o 是一种多模态人工智能模型,可同时理解和生成文本、图像和音频内容,但目前为止图像生成功能还未更新。
图片来自 Reddit
首席产品官 Kevin Weil 对此回复称:“是的!我们正在努力。我认为等待是值得的。”有人继续追问有没有大概的时间表,Kevin Weil 先是开玩笑地说“你想给我找麻烦”,随后又补充说“可能要几个月”。
此外,关于图像生成模型 DALL-3 的后续版本,Kevin Weil 也是一模一样的回复:“是的!我们正在努力。我认为等待是值得的。”
有用户对此“千篇一律”的回复表示不满意,并调侃道“这是 GPT-3 在回应吗?”
有用户关注长上下文窗口的问题,询问能否很快实现 1M 上下文。
对此,工程副总裁 Srinivas Narayanan 回复“正在努力,但没有明确的日期表”。
关于很多人都关心的 GPT-5,Sam Altman 表示还没有时间表。
首席产品官 Kevin Weil 则回应称,会在“o-17 micro 和 GPT-(π+1) 之后不久”。换句话说,遥遥无期。
不过 Sam Altman 表示会有一些即将发布的更新,比如高级语音模式。
有人问,有了语音、视频、屏幕共享、任务和操作员,OpenAI 现在已经发布了相当多的组件,这些组件共同构成了非常完整的自动化体验。在我们可以说拥有完整的 AI 体验之前,是否还缺少一些部分?如果是,那么缺少哪些部分?
对此,工程副总裁 Srinivas Narayanan 回复:“是的,很多部分正在整合在一起。继续提高推理能力仍然是最关键的部分。连续的视频输入和视频输出真的很酷。在任何环境中实现自动化——不仅仅是浏览器,而是整个计算机或其他设备。以及轻松理解和使用不同应用程序(在工作和个人生活中)的能力。”
最后是关于算力以及 AGI 相关的问题。
有人问,假设现在是 2030 年,你刚刚创建了一个大多数人称之为 AGI 的系统。它在你提出的每一个基准测试中都表现出色,并且在速度和性能上都击败了你最好的工程师和研究人员。现在怎么办?除了“在网站上提供”之外,还有其他计划吗?
工程副总裁 Srinivas Narayanan 回复:“我们与人工智能交互的界面将发生根本性的变化。事情将变得更加代理化。人工智能将在后台为我们持续工作,完成复杂的任务并实现我们的目标。它们会在有需要时向我们汇报。机器人技术也应该足够先进,让它们能够在现实世界中为我们完成有用的任务。”
Sam Altman 认为,最重要的影响是加速科学发现的速度,我相信这是对改善生活质量的最大贡献。
有人提到了芯片,问 OpenAI 如何看待 trillium、cerebers 等更专用的芯片/TPU?OpenAI 正在研究这些芯片吗?
Sam Altman 的回应很简洁:GB200 现在很难被击败!
不久之前,Sam Altman 宣布第一个完整的 8 机架 GB200 NVL72 现已在 Azure 中为 OpenAI 运行。
有人问,Stargate(星际之门)的成功对 OpenAI 的未来有多重要?
首席产品官 Kevin Weil 回应称:“非常重要。我们看到的一切都表明,我们拥有的计算能力越多,我们构建的模型就越好,我们制造的产品就越有价值。我们现在同时在两个维度上扩展模型——更大的预训练和更多的 RL/strawberry——两者都需要计算。为数亿用户提供产品也是如此!随着转向为您持续工作的更多代理产品,这需要计算。所以把 Stargate 想象成我们的工厂,它将电力/GPU 转化为适合您的超棒产品。”
看起来,DeepSeek 与 OpenAI 已经形成了两种不同的技术路线。
DeepSeek 代表了以更低的成本,尤其是计算成本,来实现更高的性能的路线。而 OpenAI 是 Scaling Law 的忠实信仰者,仍然坚持“大力出奇迹”——如果继续扩展计算,就能继续扩展性能。
这两种不同路线的选择就是实现 AGI 的分水岭吗?
(封面图来源:OpenAI)