国思软件 - 智谱开源文生图模型 CogView4，支持生成汉字

　　智谱宣布推出「智谱 2025 开源年」的第一个模型：首个支持生成汉字的开源文生图模型 CogView4，遵循 Apache2.0 协议。

　　公告称，CogView4 在 DPG-Bench 基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA，也是首个遵循 Apache 2.0 协议的图像生成模型。

　　最新的 CogView4-0304 版本现已开源，并将于 3 月 13 日上线智谱清言（chatglm.cn）。后续，该公司还计划陆续增加 ControlNet、ComfyUI 等生态支持，全套的微调工具包也即将推出。

　　性能 SOTA

　　CogView4 具备较强的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，能够生成在给定范围内的任意分辨率图像，同时具备较强的文字生成能力。

　　中文理解与生成

　　CogView4 支持中英双语提示词输入，擅长理解和遵循中文提示词，是首个能够在画面中生成汉字的开源文生图模型，能更好地满足广告、短视频等领域的创意需求。

　　在技术实现上，CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder，并通过中英双语图文进行训练，使模型具备双语提示词输入能力。

　　任意分辨率，任意长度提示词

　　CogView4 支持输入任意长度提示词，能够生成范围内任意分辨率图像，不仅使用户创作更加自由，也提升了训练效率。CogView4 模型实现了任意长度的文本描述（caption）和任意分辨率图像的混合训练范式。

　　1. 图像位置编码

　　CogView4 采用二维旋转位置编码（2D RoPE）来建模图像的位置信息，并通过内插位置编码的方式支持不同分辨率的图像生成任务。

　　2. 扩散生成建模

　　模型采用 Flow-matching 方案进行扩散生成建模，并结合参数化的线性动态噪声规划，以适应不同分辨率图像的信噪比需求。

　　3. 架构设计

　　在 DiT 模型架构上，CogView4 延续了上一代的 Share-param DiT 架构，并为文本和图像模态分别设计独立的自适应 LayerNorm 层，以实现模态间的高效适配。

　　4. 多阶段训练

　　CogView4 采用多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布，还确保生成的图像具有高美感并符合人类偏好。

　　5. 训练框架优化

　　从文本角度，CogView4 突破了传统固定 token 长度的限制，允许更高的 token 上限，并显著减少了训练过程中的文本 token 冗余。当训练 caption 的平均长度在 200-300 token 时，与固定 512 token 的传统方案相比，CogView4 减少了约 50% 的 token 冗余，并在模型递进训练阶段实现了 5%-30% 的效率提升。

　　混合分辨率训练使模型能够支持较大范围内的任意分辨率生成，极大地提升了创作的自由度。目标分辨率只需满足以下条件：

智谱开源文生图模型 CogView4，支持生成汉字

我们的产品

相关链接

关于我们

联系我们