阿里巴巴 1 月 26 日正式发布千问旗舰推理模型 Qwen3-Max-Thinking,在多项权威评测中刷新全球纪录,成为迄今最接近国际顶尖模型的国产 AI 大模型。这标志着中国大模型从“追平”到“领跑"的关键突破。
据阿里云发布的信息,该模型总参数量超万亿,预训练数据量达 36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent 能力等 19 项公认基准测试中,Qwen3-Max-Thinking 整体性能可媲美 GPT-5.2-Thinking、Claude Opus 4.5 和 Gemini 3 Pro 等国际顶尖模型。
该模型采用全新的测试时扩展机制,实现推理性能大幅提升的同时更具经济性。在启用工具的 HLE(Humanity's Last Exam)评测中,千问得分 58.3,大幅超过 GPT-5.2-Thinking 的 45.5 和 Gemini 3 Pro 的 45.8,录得当前所有模型的最高分。
阿里巴巴同日宣布,根据 Hugging Face 数据,Qwen 衍生模型数量突破 20 万,成为全球首个达成此目标的开源大模型。Qwen 系列模型累计下载量突破 10 亿次,被开发者日均下载 110 万次,稳居全球开源大模型首位。
推理技术实现代际突破
Qwen3-Max-Thinking 的核心创新在于测试时扩展机制的应用。阿里云表示,这种机制可对此前推理的结果进行"经验提取"式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算。
这一技术路径区别于业界普遍采用的推理计算方式。阿里云指出,传统方法只会简单增加并行推理路径,重复推导已知结论的情况常见,导致冗余推理效率低下。而千问新模型通过"经验提取"机制,可识别并剪枝冗余的逻辑路径,确保算力被用于探索最有价值的分支。
该模型进行了更大规模的强化学习后训练。阿里云数据显示,在此前预览版 Qwen3-Max-Thinking 斩获数学推理 AIME 25 和 HMMT 25 国内首个双满分的基础上,通义团队进一步提升了正式版性能,在多项基准测试中刷新最佳表现纪录。
在 HLE 这一被称为"人类最后的测试"的评测中,千问得分 58.3,较 GPT-5.2-Thinking 和 Gemini 3 Pro 分别高出 12.8 分和 12.5 分。在 AI 评测领域,超过 10 分的差距通常意味着代际级的领先。

原生 Agent 能力大幅增强
面向智能体时代,Qwen3-Max-Thinking 大幅增强了自主调用工具的原生 Agent 能力。该模型可在对话过程中自主选用搜索、个性化记忆和代码解释器等核心工具功能,提供更符合用户需求的智能回答。
阿里云介绍,这种能力源自通义团队专门设计的训练流程。在完成初步的工具使用微调后,团队对模型在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使 Qwen3-Max-Thinking 能够更智能地结合工具进行思考。
这一能力的提升带来实际应用价值的改变。模型不再是单纯的"大脑",需要外挂工具导致指令遵循不稳定,而是可以自主判断何时搜索互联网、何时编写代码、何时查阅知识库,并根据反馈动态调整计划。阿里云表示,这种机制大幅降低了模型幻觉,为企业级应用提供了必要的可靠性保障。
目前,开发者可在 QwenChat 上免费体验 Qwen3-Max-Thinking 模型,企业可通过阿里云百炼获取新模型 API 服务。普通用户可通过千问 PC 端和网页端试用模型,千问 APP 也即将接入新模型。
开源生态确立全球领先地位
Qwen 系列在开源生态的表现展现了中国大模型的全球影响力。根据 Hugging Face 数据,基于 Qwen 的衍生模型数量突破 20 万个,成为全球首个达成此目标的开源家族。其累计下载量突破 10 亿次,日均下载量达 110 万次。
这一数据意味着 Qwen 已完全超越此前被视为开源大模型默认标准的 Meta Llama 系列。据此前报道,Meta 内部代号“牛油果”的秘密项目,在训练新模型时采用了“蒸馏”技术向包括 Qwen 在内的多方开源模型学习,在技术层面间接承认了 Qwen 在特定能力上的领先。
Qwen 的全球采用份额持续扩大。阿里巴巴采用"全尺寸、全模态"策略,从 0.5B 到 480B 的全参数段覆盖,以及对 119 种语言的支持,使其在东南亚、中东等新兴市场迅速成为首选。
这一开源战略正在转化为实际的市场优势。千问 APP 上线首周下载量突破 1000 万,两个月月活突破 1 亿。该应用全面接入淘宝、支付宝、飞猪、高德等生态,用户可通过语音指令完成订机票、叫外卖等全流程,将 AI 价值从信息层推向交易层。
全栈布局构建竞争护城河
阿里巴巴在 AI 领域的布局覆盖算力、模型、应用全栈。在底层算力方面,平头哥研发的 PPU 在特定推理任务上的性能已与英伟达 H20 相当,配合倚天 710 服务器芯片,构建了"一云多芯"的异构算力体系。据市场消息,阿里巴巴已决定支持平头哥未来独立上市。
阿里云已构建起中国最完整的 AI 基础设施。据摩根士丹利预测,阿里云收入将在三年内翻倍,从 2025 财年的 1180 亿元增长至 2028 财年的 2400 亿元。其目标是在 2026 年拿下中国 AI 云市场增量的 80%。
阿里 CEO 吴泳铭去年宣布,未来三年将投入超过 3800 亿元用于建设云和 AI 硬件基础设施。这一投入规模与谷歌、Meta 和亚马逊等美股科技巨头的 AI 资本开支处于同一量级,体现了阿里对 AI 长期竞争力的战略判断。
Qwen3-Max-Thinking 的发布标志着阿里巴巴在 AI 算法上的顶级实力得到验证,配合其在算力、应用层面的全栈能力,为中国大模型从"追平"到"领跑"的转变提供了关键案例。
