文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

  新智元报道

  编辑:LRS

  Playground Research 推出了新一代文本到图像模型 PGv3,具备 240 亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的 RGB 颜色控制和多语言识别。

  自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于 UNet 逐渐转变为基于 Transformer 的模型。

  Playground Research 最近发布了一篇论文,详细介绍了团队最新的、基于 DiT 的扩散模型 Playground v3(简称 PGv3),将模型参数量扩展到 240 亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。

  论文链接:https://arxiv.org/abs/2409.10695

  数据链接:https://huggingface.co/datasets/playgroundai/CapsBench

  与传统依赖于预训练语言模型如 T5 或 CLIP 文本编码器的文本到图像生成模型不同,PGv3 完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decoder-only)大型语言模型的知识,来进行文本到图像生成任务。

  此外,为了提高图像描述的质量,研究人员开发了一个内部描述生成器(in-house captioner),能够生成不同详细程度的描述,丰富了文本结构的多样性,还引入了一个新的基准 CapsBench 来评估详细的图像描述性能。

  实验结果表明,PGv3 在文本提示遵循、复杂推理和文本渲染准确率方面表现出色;用户偏好研究表明,PGv3 模型在常见的设计应用中,如表情包(stickers)、海报和 logo 设计,具有超越人类的图形设计能力,还能够精确控制 RGB 颜色和多语言理解。

  PGv3 模型架构

  Playground v3(PGv3)是一个潜扩散模型(LDM),使用 EDM 公式进行训练。像 DALL-E 3、Imagen 2 和 Stable Diffusion 3 等其他模型一样,PGv3 旨在执行文本到图像(t2i)生成任务。

  PGv3 完全集成了一个大型语言模型(Llama3-8B),以增强其在提示理解和遵循方面的能力。

  文本编码器

  Transformer 模型中的每层捕捉到的表示不同,包含不同级别的单词级和句子级信息,标准做法是使用 T5 编码器或 CLIP 文本编码器的最后一层输出,或是结合倒数第二层的输出,不过,研究人员发现选择用于调节文本转图像模型的最佳层非常麻烦,特别是使用解码器风格的大型语言模型时,具有更复杂的内部表示。

  研究人员认为,信息流通过 LLM 每层的连续性是其生成能力的关键,而 LLM 中的知识横跨了所有层,而不是被某一层的输出所封装,所以 PGv3 在设计时,复制了 LLM 的所有 Transformer 块,可以从 LLM 的每个对应层中都获取隐藏嵌入输出。

  这种方法可以充分利用 LLM 完整的「思考过程」,能够引导模型模仿 LLM 的推理和生成过程,所以在生成图像时,可以实现更好的提示遵循和一致性能力。

  模型结构

  PGv3 采用了 DiT 风格的模型结构,图像模型中的每个 Transformer 块都设置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同,如隐藏维度大小、注意力头的数量和注意力头的维度,并且只训练了图像模型部分。

  在扩散采样过程中,语言模型部分只需要运行一次,就可以生成所有中间隐藏嵌入。

  与大多数传统的基于 CNN 的扩散模型不同,Transformer 模型将图像特征的自注意力与图像和文本特征之间的交叉注意力分开,然后进行联合注意力操作,可以从图像和文本值的组合池中提取相关特征,并且能减少计算成本和推理时间,下面还有一些对性能提升有用的操作:

  1. Transformer 块之间的U-Net 跳跃连接。

  2. 中间层的 token 下采样,在 32 层中,在中间层将图像键和值的序列长度减少了四倍,使整个网络类似于只有一个下采样的传统卷积U-Net,略微加快了训练和推理时间,而且没有性能下降。

  3. 位置嵌入,与 llama3 中的旋转位置嵌入(RoPE)相同,由于图像是二维的特征,所以研究人员探索了 2D 版本的 RoPE:

  「插值-PE」(interpolating-PE)方法不管序列长度如何,保持起始和结束位置 ID 固定后,在中间插值位置 ID,不过该方法在训练分辨率上严重过拟合,并且无法泛化到未见过的纵横比。

  相比之下,「扩展-PE」(expand-PE)方法按序列长度成比例增加位置 ID,不使用任何技巧或归一化,性能表现良好,没有显示出分辨率过拟合的迹象。

  新的 VAE

  潜扩散模型(LDM)的变分自编码器(VAE),对于确定模型的细粒度图像质量上限来说非常重要。

  研究人员将 VAE 的潜通道数从 4 增加到 16,增强了合成细节的能力,比如较小的面部和文字;除了在 256×256 分辨率下进行训练外,还扩展到 512×512 分辨率,进一步提高了重建性能。

  CapsBench 描述基准

  图像描述评估是一个复杂的问题,目前的评估指标主要分为两类:

  1. 基于参考的指标,如 BLEU、CIDEr、METEOR、SPICE,使用一个真实描述或一组描述来计算相似度作为质量度量,模型得分受到参考格式的限制;

  2. 无参考指标,如 CLIPScore、InfoMetIC、TIGEr,使用参考图像的语义向量或图像的多个区域来计算所提出描述的相似度指标,但缺点是,对于密集图像和长而详细的描述,语义向量不具备代表性,因为包含的概念太多。

  一种新型的评估方法是基于问题的指标,从描述中生成问题,并使用这些问题评估所提出的描述,有助于全面评估文本到图像模型。

  受到 DSG 和 DPG-bench 的启发,研究人员提出了一种反向的图像描述评估方法,在 17 个图像类别中生成「是-否」问答对:通用、图像类型、文本、颜色、位置、关系、相对位置、实体、实体大小、实体形状、计数、情感、模糊、图像伪影、专有名词(世界知识)、调色板和色彩分级。

  在评估过程中,使用语言模型仅基于候选描述回答问题,答案选项为「是」、「否」和「不适用」。

  CapsBench 包含 200 张图像和 2471 个问题,平均每张图像 12 个问题,覆盖电影场景、卡通场景、电影海报、邀请函、广告、休闲摄影、街头摄影、风景摄影和室内摄影。

  实验结果

  研究人员对比了 Ideogram-2(左上),PGv3(右上)和 Flux-pro(左下),当以缩略图形式查看时,3 个模型的图像看起来相似,定性差异很小。

  当放大检查细节和纹理时,就能看出明显区别:Flux-pro 生成的皮肤纹理过于平滑,类似于 3D 渲染的效果,不够真实;Ideogram-2 提供了更真实的皮肤纹理,但在遵循提示词方面表现不好,提示词很长的情况下,就会丢失关键细节。

  相比之下,PGv3 在遵循提示和生成真实图像方面都表现出色,还展现出明显优于其他模型的电影质感。

  指令遵循

  彩色文本代表模型未能捕捉到的具体细节,可以看到 PGv3 始终能够遵循细节。随着测试提示变长,并包含更多详细信息时,PGv3 的优势变得尤为明显,研究人员将这种性能提升归功于我们集成了大型语言模型(LLM)的模型结构和先进的视觉-语言模型(VLM)图像描述系统。

  文本渲染

  模型能够生成各种类别的图像,包括海报、logo、表情包、书籍封面和演示幻灯片,PGv3 还能够复现带有定制文本的表情包,并凭借其强大的提示遵循和文本渲染能力,创造出具有无限角色和构图的全新表情包。

  RGB 颜色控制

  PGv3 在生成内容中实现了异常精细的颜色控制,超越了标准调色板,凭借其强大的提示遵循能力和专业训练,PGv3 使用户能够使用精确的 RGB 值精确控制图像中每个对象或区域的颜色,非常适合需要精确颜色匹配的专业设计场景。

  多语言能力

  得益于语言模型天生能够理解多种语言,并构建出良好的相关词表示,PGv3 能够自然地解释各种语言的提示,并且多语言能力仅通过少量的多语言文本和图像对数据集(数万张图像)就足够了。

  参考资料:

  https://arxiv.org/abs/2409.10695