OpenAI“草莓”值万亿吗?

  奥特曼和马保国有什么共同点?答:都爱搞偷袭。

  “草莓”的消息已经传了几个月,据说这是 OpenAI 内部的一个神秘项目,似乎和前代模型颇有些不同。但 OpenAI 一直讳莫如深,最接近曝光的时刻,是此前 CEO 山姆·奥特曼(Sam Altman)在社交媒体上发布的一张真·草莓照片。

  就在前几天,The Information 还在爆料称“草莓”将在未来两周内发布。

  即便在如此高的关注度下,OpenAI 还是打了世界一个措手不及:当地时间 9 月 12 日下午,没有任何预告,没有任何发布会,OpenAI 突然发布了新模型。

  不过,新模型的名字不像“草莓”那样美味,而是很正经,且饶有深意:o1。

  要知道,此前 OpenAI 发模型一直以“GPT”系列迭代,从 2018 年的 GPT-1 到今年 5 月的 GPT-4o 无不如是。如今,OpenAI 却开辟新条线。

  在官宣 o1 发布的官方博文中,OpenAI 这样说道:“作为早期模型,它还不具备使 ChatGPT 有用的许多功能……但对于复杂的推理任务来说,这是一个重大进步,代表了 AI 能力的新水平。鉴于此,我们将计数器重置回 1 并将此系列命名为 OpenAI o1。”

  新模型目前只开放给 ChatGPT 付费订阅用户和部分程序员,为表该模型还不成熟,暂叫“o1-preview”,preview 即为预览之意。此外,OpenAI 还顺手发了小模型版本 o1-mini。不管是 o1-preview 还是 o1-mini,目前都有每周的回应条数限制。

  奥特曼自己在社交媒体X上夸赞新模型是“我们迄今为止最强大、最一致的模型”之外,也强调“o1 仍然存在缺陷,仍然有限”。

  一向喜欢给 ChatGPT 泼冷水的 AI 学者盖里·马库斯(Gary Marcus)则戏谑 OpenAI 此举是“熟悉的配方”:公布演示 demo、向有限的用户开放、筹集资金、再来一遍。

  o1 发布的当下,OpenAI 正在进行新一轮融资。根据彭博社最新消息,本轮融资将是百亿美元规模、目标估值 1500 亿美元的大事件。

  A

  先来看看模型本身。

  正如此前的传闻,o1 的一大侧重点是“推理”。而“推理”的背后的关键,则是“思考”。

  对于用户来说,最直观的感受是 o1-preview 在回答问题之前,会花更长时间。

  字母榜在 o1-preview 模型下,向 ChatGPT 提问“今天是几月几号星期几”。问题发送后,ChatGPT 逐一显示自己正在进行的思考步骤:解答日期问题、审查指引、了解当前日期,而后才给出答案,标明“思考 8 秒”。

  与之相比,在 GPT-4o 模型下,ChatGPT 在 3 秒内直接给出回答,没有显示中间步骤。

  “这是一款通过强化学习训练的新型大预言模型,旨在执行复杂的推理任务。o1 在回答问题前会进行思考——它可以在回答用户之前产生一个内部的长‘思维链’。”OpenAI 在博文中写道。

  这次 o1 模型发布,OpenAI 官方对于技术细节透露得很少,反复强调的就是“思维链”。

  据 OpenAI 解释,o1 在尝试解决问题时使用思维链,就像人类在回答一个困难问题之前长时间地思考。通过强化学习,o1 学会了精细化其思维链并优化使用策略。它能够识别和纠正自己的错误,学会将复杂的步骤分解得更简单。当前的方法不起作用时,它会尝试不同的方法。

  “这个过程极大地提高了模型的推理能力。”

  那 o1 的能力究竟有多强呢?除了 OpenAI 一连发布的数条演示视频之外,最有说服力的还得是测试成绩。OpenAI 表示,在许多推理密集的基准测试中,o1 的表现“与人类专家相媲美”,优于以前的技术。例如在国际奥数考试(IMO)中,以前的技术得分 13%,o1 的得分高达 83%。

  在 Codeforces 编程比赛中,o1 拿到 89% 的优异成绩。OpenAI 基于 o1 还针对性地开发了更擅长编程的 o1-ioi,成绩一举超过 93% 的参赛者。

  另一个被 OpenAI 特别拿出来“炫耀”的测试是 GPQA-diamond,这是一个化学、物理学和生物学专业知识的基准测试。OpenAI 邀请了拥有博士学位的专家一同比拼,发现“o1 的表现超过了这些人类专家”。

  OpenAI 还称,启用视觉感知能力后,o1 在 MMMU 测试中的得分为 78.2,%,“成为第一个能够与人类专家竞争的模型”。此外,57 个 MMLU 子类别中,o1 在 54 个子类别上超过了 GPT-4o。

  总之,o1 比起 OpenAI 之前的模型,更注重推理能力,在数学和编程等方面的能力尤其得到提升,说夸张点儿简直是拳打博士,脚踢专家,而且通过“思维链”,还有望减少模型的幻觉。

  B

  不过,目前 o1 还处在比较早期的阶段,正如奥特曼强调的“还有缺陷,仍然有限”。

  仅在字母榜的浅浅尝试中,o1-preview 就发生过错误。如提问“9.11 和 9.9 哪个大”,GPT-4o 回答错误,o1-preview 同样回答错误,一本正经地表示“9.11 确实大于 9.9. 因为 9.11(即 9.11)比 9.9(9.90)要大”。啰唆中带着一丝滑稽,更别提思考花费了 15 秒。

  The Information 也报道称,一些试用了 o1-preview 的用户表示,很多互动“不值得额外等待 10 到 20 秒的时间”,他们更喜欢 GPT-4o 的响应速度。

  目前开放给付费用户的是 o1-preview 和 o1-mini,但次数有限制:o1-preview 每周 30 条消息,o1-mini 每周 50 条消息。

  下周开始,ChatGPT 的企业用户和教育(Edu)用户也可以访问这两种模型。OpenAI 还表示未来想向所有用户免费提供 o1-mini,但具体的时间并未公布。

  这还是 OpenAI 首次在发布模型的时候加上类似“preview(预览)”的后缀,此前不管是 GPT-4 还是 GPT-4o 都是直接发布完全体。

  o1 的一个不容忽视的特点是:贵。

  开发人员访问 o1 的成本非常高:在 API 方面,o1-preview 每 100 万个输入令牌或模型解析的文本块收费 15 美元,是 GPT-4o 的三倍,每 100 万个输出令牌收费 60 美元,是 GPT-4o 的四倍。

  The Atlantic 在报道中分析称,o1 专门被设计成需要更多时间的,这必然会消耗更多资源,增加 AIGC 盈利的难度。

  C

  本文开头提到的马库斯(Gary Marcus)是人类神经科学和人工智能交叉领域的学者,纽约大学荣誉教授,同时也是 AI 初创公司 Geometric Intelligence 的创始人兼 CEO,他更加深入人心的角色是“AI 界的刺儿头”,多次批评 OpenAI。

  在他看来,OpenAI 突然发布 o1-preview 的举动更多是一种宣传手段。

  毕竟 OpenAI 正在进行一轮重要的融资,据彭博社近日的最新报道,OpenAI 正在商谈以 1500 亿美元估值从投资者那里筹集 65 亿美元,此外还想以循环信贷的方式从银行筹集 50 亿美元。

  “发 demo,向有限用户开放、筹钱、重复”,马库斯这样总结 OpenAI 的“手段”。

  今年 7 月,The Information 曾报道 OpenAI 今年可能亏损高达 50 亿美元。其中 OpenAI 今年的员工成本约 15 亿美元,AI 训练和推理成本可能高达 70 亿美元,而年收入则预计在 35 亿美元到 45 亿美元之间。

  当时 The Information 就预言,照这个烧钱速度,OpenAI 很快就得出来融资,上一次 OpenAI 的重要融资还是 2023 年初,微软投了百亿美元。

  OpenAI 已经不是第一次在关键节点释放“不成熟的产品”。

  去年 10 月,OpenAI 传出寻求出售股票的消息,当时被传的可能估值是 860 亿美元。但是次月 OpenAI 发生了惊人的高层巨变,奥特曼被踢出公司,又很快重回 CEO 岗位,赢得了“宫斗”。但股票出售计划由此被短暂耽搁,直到 11 月底才有交易“重回正轨”的消息。彼时就有知情人士表示,员工担心这次突发事件会影响股票出售,影响公司的估值。

  有趣的是,在今年 2 月 15 日,OpenAI 突然公布了一个全新的视频生成模型 Sora,演示 demo 引起外界震动。不出三日,《纽约时报》报道,OpenAI 完成了员工出售股份的交易,公司估值“如期”超过 800 亿美元。

  如今已经过去了半年多,Sora 迟迟未向大众开放,甚至没有推进大规模的测试。外界开始怀疑,Sora 其实根本没有足够的算力支撑运行。市场研究机构 Factorial Funds 发布的报告认为,部署 Sora 需要 72 万张英伟达 H100 芯片。

  9 月初,《台湾经济日报》报道台积电的 A16 埃米级芯片已经有大客户下单,除了苹果之外,还有 OpenAI。而 OpenAI 将用定制芯片提升 Sora 的视频生成能力。这似乎也印证着此前 Sora 遇到了算力卡点。

  如今草莓味的 ChatGPT 来了,也许很快,我们就能看到 OpenAI 成功完成新一轮融资、估值超万亿元的消息。