新版DeepSeek V3悄然发布 外媒:很强但少了"人味"

  3 月 25 日消息,中国人工智能初创公司 DeepSeek 悄然发布了一款新的大语言模型,在人工智能行业引发震动。这不仅因为其强大的能力,还因为其独特的发布方式。

  这个大小为 641GB 的模型名为 DeepSeek-V3-0324,于周一悄然出现在人工智能资源库 Hugging Face 上,几乎没有任何官方公告,延续了该公司低调却影响深远的发布风格。

  此次发布尤其值得关注的是,该模型采用 MIT 许可(允许免费商用),并且有报道称它可以直接在消费者级“硬件”上运行,尤其是配备 M3 Ultra 芯片的苹果 Mac Studio。

  人工智能研究员 Awni Hannun 在社交媒体上写道:“4 比特量化的新版 DeepSeek-V3-0324,在 512GB M3 Ultra 的机器上通过 mlx-lm 实现了每秒 20 个 token 的处理速度!”虽然售价为 9499 美元的 Mac Studio 可能超出了“消费者硬件”的定义,但能够在这样的硬件上本地运行如此庞大的模型,标志着与通常与最先进人工智能技术相关的数据中心需求有了根本性突破。

  DeepSeek 隐秘发布策略打破 AI 市场预期

  这个拥有 6850 亿参数的模型发布时没有附带技术白皮书、博客文章或营销推广,只有一个空白的 README 文件和模型权重。这种做法与西方人工智能公司通常精心策划的产品发布形成鲜明对比,后者往往在发布前数月便开始进行炒作。

  早期测试者报告称,相比于前一版本,DeepSeek-V3-0324 在各项指标上有了显著提升。人工智能研究员 Xeophon 在社交媒体上发帖高调宣称:“我在内部基准测试平台上测试了新版 DeepSeek V3,在所有测试中,它在各项指标上都有巨大的跃升。它现在是最好的非推理模型,把 Sonnet 3.5 拉下王座。”

  如果这一说法得到更广泛的验证,DeepSeek 的新模型将在性能排行榜上压制 Anthropic 的 Claude Sonnet 3.5,后者是业内公认顶尖的商业人工智能系统之一。而且与需要订阅的 Sonnet 不同,DeepSeek-V3-0324 的权重文件供任何人免费下载使用。

  DeepSeek V3-0324 的突破性架构如何实现无与伦比的效率

  DeepSeek-V3-0324 采用了混合专家(MoE)架构,从根本上重新构想了大语言模型的运作方式。传统模型会在每项任务中激活全部参数,而 DeepSeek 的方法是在特定任务中只激活约 370 亿个参数,尽管它拥有 6850 亿个参数。

  这种选择性激活代表了模型效率的范式转变。通过仅激活与每个特定任务最相关的“专家”参数,DeepSeek 能够在大幅减少计算需求的同时,提供与更大、完全激活的模型相当的性能。

  该模型还融入了两项突破性技术:多头潜在注意力(MLA)和多 token 预测(MTP)。MLA 增强了模型在处理长文本时保持上下文的能力,而 MTP 则可以每个步骤生成多个 token,而非传统的逐标记生成方式。两者结合使得输出速度提高了近 80%。

  开发工具创造者西蒙·威利森(Simon Willison)在博客中指出,4 比特量化版本的 DeepSeek-V3 将存储占用减少到 352GB,这使得在像 Mac Studio(配备 M3 Ultra 芯片)这样的高端消费者硬件上运行成为可能。

  这代表了人工智能技术部署方式的潜在重大转变。传统人工智能基础设施通常依赖于多块英伟达 GPU,消耗数千瓦的电力,而 Mac Studio 在推理过程中仅消耗不到 200 瓦的电力。这一效率差距表明,人工智能行业可能需要重新审视关于顶尖模型性能所需基础设施的假设。

  中国的开源 AI 革命挑战硅谷的“封闭花园”模式

  DeepSeek 的发布策略体现了中西方公司在人工智能商业理念上的根本分歧。像 OpenAI 和 Anthropic 这样的美国领军公司将他们的模型封闭在付费墙后,而中国人工智能公司则越来越多地采纳宽松的开源许可。

  这种做法正在迅速改变中国的人工智能生态系统。尖端模型的开源产生了乘数效应,使得初创公司、研究人员和开发人员能够在没有巨额资本支出的情况下,基于复杂的人工智能技术进行构建。这加速了中国人工智能能力的提升,令西方观察者感到震惊。

  这一策略背后的商业逻辑反映了中国市场的现实。在众多资金雄厚的竞争对手存在的情况下,当竞争者免费提供类似能力时,保持专有模型变得越来越困难。开源通过生态系统领导地位、API 服务和基于免费可用基础模型构建的企业解决方案创造了替代的价值路径。

  即便是中国的科技巨头也认识到这一转变。百度宣布计划在 6 月前将其文心一言 4.5 系列模型开源,而阿里巴巴和腾讯也发布了具有专业能力的开源人工智能模型。这一举措与西方公司依赖 API 的策略形成了鲜明对比。

  开源策略还解决了中国人工智能公司面临的独特挑战。在获取尖端英伟达芯片受限的情况下,中国公司更加强调效率和优化,以在有限的计算资源下实现竞争性性能。这种由需求驱动的创新现在已成为潜在的竞争优势。

  DeepSeek V3-0324:AI 推理革新的基础

  DeepSeek-V3-0324 的发布时机和特点强烈表明,DeepSeek 预计将在未来两个月内发布的改进型推理专用模型 DeepSeek-R2。这符合 DeepSeek 的惯常模式,即基础模型发布数周后推出专用推理模型。

  Reddit 用户 mxforest 指出:“这与他们在圣诞节前后发布 V3,几周后推出 R1 的模式一致。传闻 R2 将在 4 月发布,所以这可能就是它。”

  推理模型的开源再怎么强调都不为过。目前,像 OpenAI 的 o1 和 DeepSeek 的 R1 这样的推理模型代表了人工智能能力的最前沿,在数学、编程等领域展现了前所未有的问题解决能力。将这项技术免费开放,会使目前只有拥有雄厚资金支持的公司才能使用的人工智能系统普及化。

  潜在的 R2 模型发布之际,关于推理模型计算需求的重要发现正在浮现。英伟达首席执行官黄仁勋最近指出,DeepSeek 的 R1 模型“消耗的计算量是非推理人工智能系统的 100 倍”,这与之前业内对效率的假设相矛盾。这揭示了 DeepSeek 模型背后取得的非凡成就,它们在资源限制更大的情况下依然能够提供竞争力的表现。

  如果 DeepSeek-R2 继续沿着 R1 设定的轨迹发展,它可能会直接挑战 GPT-5,即 OpenAI 的下一代旗舰模型,后者预计将在不久后发布。OpenAI 封闭、资金密集型的方法与 DeepSeek 开放、资源高效的战略之间,代表了人工智能领域两种相互竞争的未来愿景。

  如何体验 DeepSeek V3-0324:开发者和用户的完整指南

  对于那些急于体验 DeepSeek-V3-0324 的人,根据技术需求和资源的不同,可以选择多种途径。完整的模型权重已在 Hugging Face 上发布,641GB 的大小需要充足的存储空间和计算资源。

  对于大多数用户而言,基于云的选项提供了最易接入的入口。OpenRouter 提供免费 API 访问该模型,并且配有用户友好的聊天界面。只需选择 DeepSeek V3 0324 作为模型即可开始体验。

  DeepSeek 自己的聊天界面 chat.deepseek.com 也很可能已经更新为新版本,尽管公司尚未明确确认。早期用户反馈称,新的版本在该平台上可用,且性能较此前版本有所提升。

  希望将模型集成到应用程序中的开发者,也可以通过各种推理提供商访问它。Hyperbolic Labs 宣布成为“在 Hugging Face 平台上首家提供该模型服务的推理提供商”提供该模型,而 OpenRouter 则提供与 OpenAI SDK 兼容的 API 访问。

  DeepSeek 的新模型更注重技术精确性而非对话亲和力

  早期用户报告称,DeepSeek 模型的交流风格发生了明显变化。尽管之前的模型因其对话式、拟人化的语气备受好评,但 DeepSeek V3-0324 呈现出更加正式、技术导向的风格。

  Reddit 用户 nother_level 问道:“是只有我觉得这个版本不那么像人类了吗?对我来说,DeepSeek V3 与其他模型不同的地方在于它更像人类。它的语气、措辞都不像其他大语言模型那样机械感,但现在这个版本感觉像其他大语言模型一样机械得要命。”

  另一位用户 AppearanceHeavy6724 补充道:“没错,它肯定失去了那种超然的魅力,感觉聪明反被聪明误。”

  这种明显的风格变化似乎是 DeepSeek 工程师的有意设计。转向更精准、分析式的交流风格,表明该公司正将模型重新定位至专业和技术应用,而非休闲对话的战略。这与人工智能行业的广泛趋势一致,开发者越来越认识到,不同的使用场景需要不同的互动风格。

  对开发专业应用的开发者而言,这种更精准的交流风格反而成为优势,能为工作流程提供更清晰一致的输出;但会削弱模型在需亲和力的消费端应用中的吸引力。

  DeepSeek 的开源战略如何重塑全球 AI 版图

  DeepSeek 的人工智能技术开发和分发方法不仅是一项技术成就,也体现了关于先进技术应如何在社会中传播的根本不同愿景。通过提供开放许可的尖端人工智能模型,DeepSeek 推动了一个传统闭源模型无法比拟的指数级创新。这一战略正在快速缩小中国和美国在人工智能领域的差距。几个月前,大多数分析师都认为中国落后美国一到两年,而如今这一差距已缩小至 3 至 6 个月,部分领域接近持平甚至中国领先。

  这种开源部署理念与安卓对移动生态系统的影响颇为相似。通过免费提供安卓系统,谷歌创建了一个平台,最终实现了全球市场的主导地位。同样,开源人工智能模型也有可能凭借广泛普及和开发者集体创新,在竞争中超越闭源系统。

  这一影响超越了市场竞争,直指技术获取的根本问题。西方 AI 巨头因将先进能力集中在资源充足的公司与个人手中而备受批评,而 DeepSeek 的开放战略让能力广泛分布,可能加速全球 AI 应用。

  随着 DeepSeek-V3-0324 进入全球研究实验室和开发者工作站,竞争已不再仅仅是关于构建最强大的人工智能,而是关于让更多人能够利用人工智能进行创造。在这场竞赛中,DeepSeek 的低调发布已充分预示了人工智能的未来。最自由分享技术的公司,或将最终主导 AI 重塑世界的进程。 (小小)