国思软件 - Sam Altman 首次承认 OpenAI 的闭源策略“站在了历史错误的一边”

　　免费用户也可使用 o3 mini 推理模型了！

　　作者｜赵健

　　来源 | 甲子光年

　　北京时间 2 月 1 日凌晨，OpenAI 正式发布 o3-mini，这是 OpenAI 推理系列中最新、最具成本效益的模型，已在 ChatGPT 和 API 中开放使用。

　　这可以看作 OpenAI 对过去一周多风靡美国市场的 DeepSeek 的回应。

　　在 o3 mini 发布的同时，OpenAI 高管团队还在 Reddit 上举办了一场线上的 AMA（ask me anything），回答有关 o3 mini 以及 AI 发展相关的一切问题。

　　在被问及是否会考虑发布一些模型权重以及一些研究时，OpenAI 首席执行官 Sam Altman 首次承认：“我个人认为，我们在这里站在了历史的错误一边，需要找出一个不同的开源策略。OpenAI 中并非所有人都认同这一观点，这也不是我们当前的最高优先事项。”　　

　　此外，OpenAI 高管团队还讨论了 o3 mini 的功能、价格以及其他产品更新、算力等相关的话题。

　　可以说，如果没有 DeepSeek，OpenAI 不会这么快做出回应，无论是模型还是言论。

　　1. OpenAI 首次将推理模型开放给免费用户

　　本次发布的 o3-mini 在 2024 年 12 月发布了预览版本，是 OpenAI 首个支持高度请求的开发者功能的小型推理模型，包括函数调用、结构化输出和开发者消息。o3-mini 将支持流式传输，开发者还可以在三种推理努力选项——低、中、高——之间进行选择，以优化其特定用例。这种灵活性使得 o3-mini 在解决复杂挑战时可以“更努力地思考”，或者在延迟是关键问题时优先考虑速度。但是 o3-mini 不支持视觉能力，因此开发者应继续使用 OpenAI o1 进行视觉推理任务。

　　OpenAI 表示 o3-mini 突破了小型模型所能实现的界限，提供了卓越的 STEM（Science、Technology、Engineering、Mathematics）功能，尤其擅长科学、数学和编码，同时保持了 o1-mini 的低成本和低延迟。专家测试人员的评估表明，与 OpenAI o1-mini 相比，o3-mini 的答案更准确、更清晰，推理能力更强。

　　OpenAI 表示，测试人员在 56% 的时间里更喜欢 o3-mini 的回答，并观察到在困难的现实问题上重大错误减少了 39%。在中等推理努力下，o3-mini 在一些最具挑战性的推理和智力评估（包括 AIME 和 GPQA）上的表现与 o1 相当。

　　o3 mini 在数学竞赛 AIME 2024 的成绩表现，图片来自 OpenAI

　　价格层面，OpenAI 提供了不同的套餐设置：Pro 用户将可以无限制访问 o3-mini，而 Plus 和 Team 用户将拥有三倍的速率限制（与 o1-mini 相比）；免费用户可以通过选择消息编写器下方的“Reason”按钮在 ChatGPT 中尝试 o3-mini。

　　这是 OpenAI 首次将推理模型开放给免费用户，此前发布的 o1 模型只有 ChatGPT plus 会员可以使用。而免费开放的原因其实也很显然，那就是被 DeepSeek 免费且开源的 R1 给卷到了。

　　不过，ChatGPT plus 会员会享有更高版本的模型“o3-mini-high”，它会思考得更深入，并给出更好的答案。

　　作为此次升级的一部分，OpenAI 将 Plus 和 Team 用户的速率限制从每天 50 条消息（使用 o1-mini）提高到每天 150 条消息（使用 o3-mini）。此外，o3-mini 现在可以与搜索功能配合使用，以查找最新的答案并链接到相关的网络资源。这是 OpenAI 将搜索功能整合到推理模型中的早期原型。　　

　　在安全层面，OpenAI 用来教 o3-mini 安全响应的关键技术之一是审慎对齐，即在回答用户提示之前，训练模型推理人类编写的安全规范。与 OpenAI o1 类似，o3-mini 在具有挑战性的安全性和越狱评估方面明显超越了 GPT-4o。在部署之前，OpenAI 表示仔细评估了 o3-mini 的安全风险，采用了与 o1 相同的准备、外部红队和安全评估方法。

　　2. OpenAI 团队回答一切

　　OpenAI 高管团队在 Reddit 上举办了一场线上的 AMA（ask me anything），回答有关 o3 mini 以及 AI 发展相关的一切问题。

　　参与本次活动的共 6 人，包括首席执行官 Sam Altman、首席研究官 Mark Chen、首席产品官 Kevin Weil、工程副总裁 Srinivas Narayanan、API 研究主管 Michelle Pokrass、研究主管 Hongyu Ren。

　　首先是大家最关心的关于 DeepSeek 的焦点问题。　　

　　有用户表示显然这是一个非常令人印象深刻的模型，这会如何改变 OpenAI 对未来模型的计划？

　　Sam Altman 此前对于 DeepSeek 评价很高，这次也给出了类似的评价。他回复称：“这是一个非常好的模型！我们将生产出更好的模型，但领先优势将比前几年有所减弱。”

　　鉴于 DeepSeek 在开源领域取得的成功，有人问 OpenAI 是否考虑发布一些模型权重并发表一些研究？

　　Sam Altman 对此回应称：“是的，我们正在讨论。我个人认为，我们在这里站在了历史的错误一边，需要找出一个不同的开源策略；OpenAI 中并非所有人都认同这一观点，这也不是我们当前的最高优先事项。”

　　这似乎是 Sam Altman 首次正面承认 OpenAI 的闭源“是一个错误”。但 OpenAI 是否会真正开源？这恐怕将是一个艰难的选择。

　　第二个集中话题是关于 o3 mini 的产品功能。　　

　　首先是价格问题。有人对比发现，o3 mini 的价格与 Deepseek 和 Gemini 相比仍然没有竞争力。比如，在百万 tokens 规模下，Deepseek R1 的 API 输入价格（缓存命中）为 0.14 美元，输出价格为 2.19 美元，而 o3 mini 的输入价格为 0.55 美元，输出价格为 4.40 美元。

　　DeepSeek API 价格，deepseek-chat 指的是 DeepSeek-V3.，deepseek-reasoner 指的是 DeepSeek-R1，图片来自 DeepSeek 官网

　　O 系列推理模型价格，图片来自 OpenAI 官网

　　OpenAI API 研究主管 Michelle Pokrass 对此回应：“我们发现 o3-mini 与美国托管的 Deepseek 版本相比具有竞争力。我们认为对于这种级别的智能来说，这是一个真正实惠的选择。”

　　OpenAI 会计划提高 plus 会员的价格吗？Sam Altman 回应称：“实际上我想随着时间的推移减少它。”

　　大模型推理成本的下降是一个必然趋势。OpenAI 在发布 o3 mini 时表示，该模型延续了其降低智能成本的记录——自推出 GPT-4 以来，每个 token 的价格降低了 95%——同时保持了顶级的推理能力。

　　针对 o3 mini 的价格，OpenAI 制定了不同的套餐模式。有人问，为什么当 plus 用户拥有大量 o3-mini-high 限额时，订阅 PRO 版本仍然值得？

　　Sam Altman 回应称，如果你认为 o1 pro 还算值得，那么你应该认为 o3 pro 超级值得。

　　工程副总裁 Srinivas Narayanan 进一步解释：“我们现在有 o1 专业模式，还有操作员模式。我们可能会继续有更多方法使用更多计算来解决专业级的难题。是的，专业用户喜欢无速率限制。”

　　其次是思维链的展示问题。o3 mini 并不像 DeepSeek R1 那样给出非常详细的思维链过程，而是非常简洁。

　　o3 mini 的思维链展示

　　DeepSeek R1 的思维链展示

　　于是有用户提问，我们能看看所有的思考标记吗？

　　首席产品官 Kevin Weil 回复称：“我们正在努力展示比今天更多的内容——很快就会实现。所有内容都有待确定，展示所有 CoT 会导致竞争性提炼，但我们也知道人们（至少是高级用户）想要它，所以我们会找到正确的方法来平衡它。”

　　关于 o3 mini 知识库的时间更新问题，有用户表示不理解。“在我支付了 plus 费用之前，GPT-4o 拥有的知识截止到 2024 年 6 月，但是现在我支付了 plus 费用，知识截止时间又改回了 2023 年 10 月。为什么会这样？”

　　Sam Altman 对此回应称：“现在我们已经启用了搜索功能，这一点就不再那么重要了——就我自己的使用而言，我再也没有考虑过知识截止的问题了。”

　　OpenAI 本次发布的是 o3 mini，于是有人问完整版本 o3 何时首次亮相？

　　Sam Altman 一如既往开始画饼：“我猜会是几周以上，几个月以下。”

　　第三个话题集中在其他产品更新，也就是 OpenAI 曾经发布的“期货”产品何时兑现。　　

　　有用户关心 4o 图像生成器是否还会发布，这是大约一年前 OpenAI 发布的功能。GPT-4o 是一种多模态人工智能模型，可同时理解和生成文本、图像和音频内容，但目前为止图像生成功能还未更新。

　　图片来自 Reddit

　　首席产品官 Kevin Weil 对此回复称：“是的！我们正在努力。我认为等待是值得的。”有人继续追问有没有大概的时间表，Kevin Weil 先是开玩笑地说“你想给我找麻烦”，随后又补充说“可能要几个月”。

　　此外，关于图像生成模型 DALL-3 的后续版本，Kevin Weil 也是一模一样的回复：“是的！我们正在努力。我认为等待是值得的。”

　　有用户对此“千篇一律”的回复表示不满意，并调侃道“这是 GPT-3 在回应吗？”

　　有用户关注长上下文窗口的问题，询问能否很快实现 1M 上下文。

　　对此，工程副总裁 Srinivas Narayanan 回复“正在努力，但没有明确的日期表”。

　　关于很多人都关心的 GPT-5，Sam Altman 表示还没有时间表。

　　首席产品官 Kevin Weil 则回应称，会在“o-17 micro 和 GPT-(π+1) 之后不久”。换句话说，遥遥无期。

　　不过 Sam Altman 表示会有一些即将发布的更新，比如高级语音模式。

　　有人问，有了语音、视频、屏幕共享、任务和操作员，OpenAI 现在已经发布了相当多的组件，这些组件共同构成了非常完整的自动化体验。在我们可以说拥有完整的 AI 体验之前，是否还缺少一些部分？如果是，那么缺少哪些部分？

　　对此，工程副总裁 Srinivas Narayanan 回复：“是的，很多部分正在整合在一起。继续提高推理能力仍然是最关键的部分。连续的视频输入和视频输出真的很酷。在任何环境中实现自动化——不仅仅是浏览器，而是整个计算机或其他设备。以及轻松理解和使用不同应用程序（在工作和个人生活中）的能力。”

　　最后是关于算力以及 AGI 相关的问题。　　

　　有人问，假设现在是 2030 年，你刚刚创建了一个大多数人称之为 AGI 的系统。它在你提出的每一个基准测试中都表现出色，并且在速度和性能上都击败了你最好的工程师和研究人员。现在怎么办？除了“在网站上提供”之外，还有其他计划吗？

　　工程副总裁 Srinivas Narayanan 回复：“我们与人工智能交互的界面将发生根本性的变化。事情将变得更加代理化。人工智能将在后台为我们持续工作，完成复杂的任务并实现我们的目标。它们会在有需要时向我们汇报。机器人技术也应该足够先进，让它们能够在现实世界中为我们完成有用的任务。”

　　Sam Altman 认为，最重要的影响是加速科学发现的速度，我相信这是对改善生活质量的最大贡献。

　　有人提到了芯片，问 OpenAI 如何看待 trillium、cerebers 等更专用的芯片/TPU？OpenAI 正在研究这些芯片吗？

　　Sam Altman 的回应很简洁：GB200 现在很难被击败！

　　不久之前，Sam Altman 宣布第一个完整的 8 机架 GB200 NVL72 现已在 Azure 中为 OpenAI 运行。

　　有人问，Stargate（星际之门）的成功对 OpenAI 的未来有多重要？

　　首席产品官 Kevin Weil 回应称：“非常重要。我们看到的一切都表明，我们拥有的计算能力越多，我们构建的模型就越好，我们制造的产品就越有价值。我们现在同时在两个维度上扩展模型——更大的预训练和更多的 RL/strawberry——两者都需要计算。为数亿用户提供产品也是如此！随着转向为您持续工作的更多代理产品，这需要计算。所以把 Stargate 想象成我们的工厂，它将电力/GPU 转化为适合您的超棒产品。”

　　看起来，DeepSeek 与 OpenAI 已经形成了两种不同的技术路线。

　　DeepSeek 代表了以更低的成本，尤其是计算成本，来实现更高的性能的路线。而 OpenAI 是 Scaling Law 的忠实信仰者，仍然坚持“大力出奇迹”——如果继续扩展计算，就能继续扩展性能。

　　这两种不同路线的选择就是实现 AGI 的分水岭吗？

　　（封面图来源：OpenAI）

Sam Altman 首次承认 OpenAI 的闭源策略“站在了历史错误的一边”

1. OpenAI 首次将推理模型开放给免费用户

2. OpenAI 团队回答一切

我们的产品

相关链接

关于我们

联系我们