智谱开源文生图模型 CogView4,支持生成汉字

  智谱宣布推出「智谱 2025 开源年」的第一个模型:首个支持生成汉字的开源文生图模型 CogView4,遵循 Apache2.0 协议。

  公告称,CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA,也是首个遵循 Apache 2.0 协议的图像生成模型。

  最新的 CogView4-0304 版本现已开源,并将于 3 月 13 日上线智谱清言(chatglm.cn)。后续,该公司还计划陆续增加 ControlNet、ComfyUI 等生态支持,全套的微调工具包也即将推出。

  性能 SOTA

  CogView4 具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。

  中文理解与生成

  CogView4 支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。

  在技术实现上,CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder,并通过中英双语图文进行训练,使模型具备双语提示词输入能力。

  任意分辨率,任意长度提示词

  CogView4 支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率。CogView4 模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。

  1. 图像位置编码

  CogView4 采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。

  2. 扩散生成建模

  模型采用 Flow-matching 方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

  3. 架构设计

  在 DiT 模型架构上,CogView4 延续了上一代的 Share-param DiT 架构,并为文本和图像模态分别设计独立的自适应 LayerNorm 层,以实现模态间的高效适配。

  4. 多阶段训练

  CogView4 采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。

  5. 训练框架优化

  从文本角度,CogView4 突破了传统固定 token 长度的限制,允许更高的 token 上限,并显著减少了训练过程中的文本 token 冗余。当训练 caption 的平均长度在 200-300 token 时,与固定 512 token 的传统方案相比,CogView4 减少了约 50% 的 token 冗余,并在模型递进训练阶段实现了 5%-30% 的效率提升。

  混合分辨率训练使模型能够支持较大范围内的任意分辨率生成,极大地提升了创作的自由度。目标分辨率只需满足以下条件: