阿里通义千问发布了 Qwen2.5-Turbo 开源 AI 模型,该模型显著扩展了上下文长度,从 12.8 万扩展至 100 万 tokens,能够处理约 100 万英语单词或 150 万汉字,相当于 10 部完整小说。
Qwen2.5-Turbo 在 1M-token 的 Passkey 检索任务中实现了 100% 准确率,并在 RULER 长文本评估中得分 93.1,超越了 GPT-4 和 GLM4-9B-1M。
通过整合稀疏注意力机制,该模型将处理 100 万 tokens 的时间从 4.9 分钟缩短至 68 秒,提升了 4.3 倍的响应效率。
此外,Qwen2.5-Turbo 的处理成本保持在每百万 tokens 0.3 元,能处理 3.6 倍于 GPT-4o-mini 的 token 数量,提供了一个高效且经济的长上下文处理解决方案。
尽管在基准测试中表现优异,团队仍计划继续优化模型,提高推理效率,并探索更强大的长上下文模型,以应对真实场景中长序列任务的挑战和进一步降低大型模型的推理成本。