国思软件 - 奥特曼深夜发动价格战，GPT-4o mini暴跌99%！清华同济校友立功，GPT-3.5退役

　　新智元报道

　　编辑：编辑部

　　GPT-4o mini 深夜忽然上线，OpenAI 终于开卷小模型！每百万输入 token 已达 15 美分的超低价，跟 GPT-3 相比，两年内模型成本已降低 99%。Sam Altman 惊呼：通往智能的成本，已变得如此低廉！另外，清华同济校友为关键负责人。

　　OpenAI，也开始进军小模型了。

　　就在今天深夜，GPT-3.5 退场，全新发布的 GPT-4o mini，更小、性能更强，更重要的是——更便宜！

　　GPT-3.5，再见！

　　每百万个输入 token 15 美分，每百万个输出 token 60 美分，MMLU 得分 82%，性能超快。

　　CEO Sam Altman 感慨道：通往智能的成本，竟是如此低廉。

　　是的，如火如荼的大模型价格战，OpenAI 也入场了。

　　Altman 回顾说：就在 2022 年，世界上最好的模型是还是 text-davinci-003（GPT-3 的版本）。

　　但如今，与这个新模型相比，text-davinci-003 差得太多太多。甚至，价格要高出 100 倍。

　　相较于 GPT-3.5，GPT-4o mini 性能更强，价格还要便宜 60% 以上，成本直线下降。

　　大模型的成本，两年间下降了 99%，等再过几年呢？简直不敢想。

　　以前，用 OpenAI 模型构建应用程序可能会产生巨额费用，没有能力对其修改的开发者，极有可能放弃它，转投更便宜的模型，比如谷歌的 Gemini 1.5 Flash 或者 Anthropic 的 Claude 3 Haiku。

　　如今 OpenAI 终于等不住，出手了。

　　现在，所有人都可以在 ChatGPT 中用上 GPT-4o mini 了。

　　小模型，但对标 GPT-4 Turbo

　　GPT-4o mini 的知识更新到去年 10 月，语言种类和 GPT-4o 对齐，上下文窗口为 128k。

　　目前在 API 中仅支持文本和视觉模态，未来还将扩展到视频和音频的输入/输出。

　　虽然没有披露参数规模，但 OpenAI 的官博文章表示，这是他们目前最经济、最有成本效益的小模型，微调功能也将很快上线。

　　神奇的是，GPT-4o mini 在 LMSYS 排行榜上聊天偏好方面的表现甚至优于 GPT-4。在总榜上，排名可以和 GPT-4 Turbo 匹敌。

　　上周模型还没发布，就已经有超过 6000 名用户投票给早期版本「upcoming-gpt-mini」，但目前该模型的结果已经被撤下。

　　LMSYS 在推特上宣布，正在重新收集投票，很快就会发布正式版模型的成绩。

　　GPT0-4o mini 的发布，显然将大幅扩展 AI 应用的范围。

　　它不仅低成本、低延迟，还支持广泛的任务，比如链式或并行调用多个模型的应用（调用多个 API），向模型传递大量上下文（完整代码库或对话历史），或通过快速、实时的文本响应与客户互动（支持聊天机器人）。

　　并且，由于与 GPT-4o 共享改进的分词器（tokenizer），它处理起非英语文本会更加经济高效。

　　目前，GPT-4o mini 在 API 中支持文本和视觉，未来还将支持多模态功能，包括文本、图像、视频和音频的输入和输出。

　　听起来，它像是功能更强大的虚拟助理，比如了解我们的旅行行程并给出建议。

　　文本、数学、编码、多模态，效果拔群

　　在文本智能和多模态推理方面，GPT-4o mini 已经超越了 GPT-3.5 Turbo 和其他小模型，GPT-4o 支持的语言它也都支持。

　　长上下文处理性能上，它比起 GPT-3.5 Turbo 也有所改进。

　　在函数调用上，GPT-4o mini 同样表现出色，因此开发者可以更方便地构建应用。

　　看一下 GPT-4o mini 的关键基准测试成绩。

　　推理任务

　　文本和视觉推理任务上，GPT-4o 优于其他小模型。

　　在 MMLU 上，它的得分为 82.0%，而 Gemini Flash 为 77.9%，Claude Haiku 为 73.8%。

　　数学和编码能力

　　在数学推理和编码任务中，GPT-4o 同样表现出色，优于市场上的小模型。

　　在 MGSM 上，在 MGSM 上，GPT-4o mini 得分为 87.0%，而 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。

　　在 HumanEval 上，GPT-4o mini 得分为 87.2%，而 Gemini Flash 为 71.5%，Claude Haiku 为 75.9%。

　　多模态推理

　　GPT-4o mini 在 MMMU 上也表现强劲，得分为 59.4%，而 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%。

　　实测表明，无论是从收据文件中提取结构化数据，还是根据邮件线程生成高质量回复，GPT-4o mini 在这类任务上的表现都明显比 GPT-3.5 Turbo 更好。

　　这也印证了业界一直在讨论的观点：模型的大小，并不重要。

　　性价比极高

　　在性价比方面，Artificial Analysis 已经为我们整理出了详细的分析。

　　GPT-4o mini 的定价为：输入每 1M token 15 美分，输出每 1M token 60 美分。

　　1M token 什么概念？大致相当于 2500 页书。

　　这个价格已经卷到了头部模型的最低档，仅次于 Llama 3 8B。

　　从下表中可以看到，在目前头部厂商发布的所有小模型中，GPT-4o mini 超越 Gemini 1.5 Flash、Llama 3 8B、Mistral 7B 等众多竞品，成为性价比之最。

　　越靠近左上的模型，性价比越高

　　不仅是性价比最好，GPT-4o mini 在输出的速度和质量上也实现了目前 SOTA 水平的优化权衡，甚至比 GPT-4o 更佳。

　　将质量和生成速度分开来看，效果依旧能打。

　　Artificial Analysis 上的质量指数代表 Chatbot、MMLU 和 MT-Bench 等基准的归一化平均性能。

　　GPT-4o mini 得分为 85，和 Gemini 1.5 Flash、Llama 3 70B 基本处于同一水平，胜过 Mixtral 系列的8×22B 和8×7B 型号。

　　MMLU 的得分也基本与质量指数一致，但比较亮眼的是在 HumanEval 编码任务上的评分。

　　87. 2 分的成绩，超过了谷歌系最强模型 Gemini 1.5 Pro！

　　推理效率方面，183 token/s的生成让 GPT-4o mini 成为这个榜单上的绝对王者，相比第二名 Gemini 1.5 Flash 还要快 18 token/s。

　　除了生成速度，目前 API 的响应延迟（TTFT）也算优秀，虽然没打过 Phi-3、Llama 3 7B 等小模型，但差距也不算太大。

　　在响应延迟和 token 生成速度上，GPT-4o mini 都有非常优秀的成绩，但需要注意的是，这两个指标与推理所用的硬件规格高度相关，而且模型仅开放 API，并没有第三方进行部署后的测评。

　　模型发布之后，GPT-4o mini 能否始终保持这样的高效率推理，更值得期待。

　　除了生成质量和推理效率，GPT-4o mini 在上下文长度方面算是中规中矩，毕竟 GPT-4o 也才 128k，没法和最长 1M 的 Gemini 系列抗衡。

　　「真正实现 OpenAI 使命」

　　「我认为 GPT-4o mini 真正实现了 OpenAI 的使命——让人们更广泛地接触 AI。如果我们希望 AI 惠及世界每个角落、每个行业、每个应用程序，我们就必须让 AI 变得更便宜。」API 平台产品负责人 Olivier Godement 这样介绍。

　　使用 Free、Plus、Team 套餐的 ChatGPT 用户，现在都可以使用 GPT-4o mini 了，企业用户也可以在下周获得访问权限。

　　对于 ChatGPT 用户，GPT-3.5 已经消失，但开发者仍能通过 API 调用 GPT-3.5。

　　不过，GPT-3.5 也将在某一时间从 API 中退役，但具体时间点还不确定。

　　对于渴望低成本构建应用的开发者来说，GPT-4o mini 来得太及时了。

　　金融初创公司 Ramp 在测试中，用它构建了提取收据上费用的工具，不必费力浏览文本框，模型就会自动对所有内容排序。

　　显然，OpenAI 不想再让开发者流失到更便宜的 Claude 3 Haiku 和 Gemini 1.5 Flash。

　　但是，OpenAI 为什么花了这么久？

　　Godement 表示，这涉及到一个「优先考虑」的问题。

　　此前 OpenAI 专注于 GPT-4 这样的大模型，而随着时间的推移，OpenAI 终于注意到了开发者们渴望对小模型的愿景，才终于决定投入资源。

　　OpenAI 非常有信心，GPT-4o mini 一定会非常受欢迎。

　　网友：LLM 变小，竞争加剧

　　Sclaing Law 要卷，小模型也要卷。

　　一大早，不仅 OpenAI 放出了 GPT-4o mini，另一边 Mistral 联手英伟达推出 12B 小模型 Nemo，性能赶超 Gema 和 Llama-3 8B。

　　Karpathy 对此表示，「大模型的参数规模竞争正在加剧……但方向是相反的」！

他预测，我们将会看到非常小，但「思考」得非常好且可靠的模型。通过调整 GPT-2 参数，很可能存在一种特定的设置方式，因此 GPT-2 可能会表现的更好，以至于让大多数人认为它很聪明。当前 LLM 如此庞大的原因是，我们在训练过程中非常浪费——我们要求它们记住整个互联网，令人惊讶的是，它们确实做到了，比如可以背诵常见数字的 SHA 哈希值，或者回忆起非常冷僻的事实。（实际上，大模型在记忆方面非常出色，质量上远胜于人类，有时只需要一次更新就能记住大量细节并保持很长时间）。但是，想象一下，如果你要在闭卷考试中，根据前几句话背诵互联网上的任意段落。这是今天模型的标准（预）训练目标。做得更好的难点在于，在训练数据中，思考的展示与知识「交织」在一起的。因此，模型必须先变大，然后才能变小，因为我们需要它们（自动化）的帮助，将训练数据重构并塑造成理想的合成格式。这是一个阶梯式的改进过程——一个模型帮助生成下一个模型的训练数据，直到我们拥有「完美的训练集」。当你用它训练 GPT-2 时，它将成为今天标准下非常强大/聪明的模型。也许 MMLU 会稍微低一些，因为它不能完美地记住所有的化学知识。也许它需要偶尔查阅一些东西以确保准确。

　　HuggingFace 创始人表示，「这个星期是小模型的一周」。