智东西
作者程茜
编辑心缘
智东西 3 月 25 日报道,昨天,阿里云通义千问开源更小尺寸的视觉理解模型 Qwen2.5-VL-32B-Instruct。与昨夜 DeepSeek V3 新版本 DeepSeek-V3-0324 的发布时间几乎前后脚。
Qwen2.5-VL-32B-Instruct 的优势主要集中于三个方面:研究人员调整了输出风格,使其回答详细、格式规范且更符合人类偏好;在数学推理能力方面,可应对复杂数学问题;在图像解析、内容识别、视觉逻辑推导等任务中更准确并具备细粒度分析能力。
该模型是在 1 月底开源的视觉模型 Qwen2.5-VL 系列的基础上,研究人员基于强化学习持续优化的模型,新模型使用 Apache 2.0 协议开源。
科技博主 Simon Willison 在博客中提到,32B 参数正迅速成为其最喜欢的模型大小,既能达到可媲美 GPT-4 级别的能力,又小到可以在其 64GB 内存的 Mac 上使用,并且仍有足够的 RAM 来运行其他如火狐浏览器(Firefox)和软件开发工具 Visual Studio Code 等内存占用较大的应用程序。
GitHub 地址:https://github.com/QwenLM/Qwen2.5-VL
Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
一、一张图就能输出地理特征、地形地貌,几何难题也能胜任
Simon Willison 尝试了 Qwen2.5-VL-32B-Instruct 的图片理解能力,他上传了一张图片让模型识别。Qwen2.5-VL-32B-Instruct 给出了图片中包含的地理特征、分颜色区域、深度等值线、保护区等诸多要素。
官方博客中展示了 Qwen2.5-VL-32B-Instruct 在细粒度图像理解和数学推理方面的实际表现。
第一个提示词是:“我开着大货车在这条路上行驶,现在已经 12 点了,我能在 13 点之前到达 110 公里以外的地方吗?”模型需要在理解用户需求的基础上,补充图片上对车辆限速的背景信息再得出结论。
可以看到,Qwen2.5-VL-32B-Instruct 先将题目和图片中的信息进行了汇总,然后进行逐步分析解答。
第二个问题是数学推理,提示词为:“如图所示,直线 AB 和 CD 在O点相交,OD 平分∠AOE,∠BOC=50.0,然后∠EOB=()”这道题重点考察的是模型够准确理解几何图形的基本概念,以及相关角之间的位置关系,如对顶角、角平分线等概念在图形中的体现。
第三个提示词是:“侏罗纪蜘蛛网是一种非常有规律的蜘蛛网,如图,它是由无数个正方形环绕而成的,且最外边第一个正方形A_{1}B_{1}C_{1}D_{1}的面积为a_{1}=1,分别取正方形A_{1}B_{1}C_{1}D_{1}各边的三等分点A_{2},B_{2},C_{2},D_{2},作第二个正方形A_{2}B_{2}C_{2}D_{2},且正方形A_{2}B_{2}C_{2}D_{2}的面积为a_{2},\ldots \ldots ,依次类推,第n个正方形A_{n}B_{n}C_{n}D_{n}的面积为a_{n}. $求{a_{n}}的通项公式”。
这道题综合考查了几何图形分析、归纳推理、数学运算以及数列知识运用等多方面的能力。在 Qwen2.5-VL-32B-Instruct 的解题过程中,其首先罗列了解题文章的基本思路,然后进行分步骤解答。
最后一个是对精细图片的理解,Qwen2.5-VL-32B-Instruct 通过图片中的锅底、分格设计、配菜、氛围等识别出这是四川麻辣火锅,并附上了简介。在用户询问这为什么是四川火锅时,其对上述关键要素进行了详细引用给出答案。
二、多项测试超过 72B 前代模型,纯文本能力整体优于 GPT-4o mini
多项基准测试中,Qwen2.5-VL-32B-Instruct 的表现超过了 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT,以及参数规模更大的 Qwen2-VL-72B-Instruct 模型。
在强调复杂任务多步骤推理的 MMMU、MMMU-Pro 和 MathVista 中,Qwen2.5-VL-32B-Instruct 表现优于 Mistral-Small-3.1-24B、Gemma-3-27B-IT、Qwen2-VL-72B-Instruct。
同时,注重主观用户体验评估的 MM-MT-Bench 基准测试中,该模型相较于其前代 Qwen2-VL-72B-Instruct 表现更好。
纯文本能力方面,Qwen2.5-VL-32B-Instruct 是同规模模型中整体表现最好的。
结语:下一步将聚焦长且有效的视觉推理
相比于 Qwen2.5-VL 系列模型,基于快思考模式,Qwen2.5-VL-32B 在强化学习框架下优化了主观体验和数学推理能力。
阿里云通义千问的研究团队下一步研究将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。