国思软件 - 开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

　　梦晨发自凹非寺

　　量子位公众号 QbitAI

　　开源多模态 SOTA 模型再易主！

　　Hugging Face 开发者大使刚刚把王冠交给了 CogVLM2，来自大模型创业公司智谱 AI。

　　CogVLM2 甚至在 3 项基准测试上超过 GPT-4v 和 Gemini Pro，还不是超过一点，是大幅领先。

　　网友闻讯而来，发现 ChatGPT 新绝技之“AI 挑瓜”，我们开源届也不缺了。

　　更复杂的学术图表，它也能理解并给出详细解释。

　　CogVLM2 整体模型参数量仅19B，却能在多项指标取得接近或超过 GPT-4V 的水平，此外还有几大亮点：

支持 8K 文本长度
支持高达 1344*1344 的图像分辨率
提供支持中英文双语的开源模型版本
开源可商用

　　英文版经网友测试也有不错的表现。

　　特别值得注意的是，尽管 CogVLM2 的总参数量为 19B，但得益于精心设计的多专家模块结构，每次进行推理时实际激活的参数量仅约 12B，这样一来，全量推理（BF16/PF16）需要 42GB 显存。

　　接下来划重点了：Int4 量化版本，仅需要 16GB 显存。

　　也就是一张英伟达 RTX4080，或者刚出不久的 RTX4070 Ti SUPER 就能搞定了。

　　性能不俗，算力需求也不离谱，以至于刚开源不久就在 GitHub 上小火了一把，各类开发者带着自己的场景来找团队咨询。

　　团队也贴心的表示，考虑到很多实际场景需要微调，专门给大家提供了 Lora 微调代码。

冻结视觉部分，BF16 Lora 微调仅需 57GB 显存
如果同时对视觉部分进行 BF16 Lora 微调，则至少需要 80GB 显存

　　CogVLM2 也提供在线 Demo，感兴趣的话可以先试玩一下。

　　（试玩地址在文末领取）

　　好嘛，一般的小诡计还真骗不过它～

　　大模型整合视觉专家模块

　　其实去年 10 月，团队就发布了 CogVLM 一代，量子位当时也介绍过。

　　系列的核心思路，是给大语言模型的每一层都添加可训练的视觉专家模块，以实现图像特征和文本特征的深度对齐，而不会牺牲 NLP 任务的性能。

　　可以说是把视觉语言模型的训练方式，从图像文本的浅层对齐，转向了深度融合。

　　CogVLM2 在继承这一经典架构的基础上，做了不少优化和改进。

　　语言模型基座升级成最新的 Llama3-8B-Instruct，视觉编码器升级到 5B、视觉专家模块也升级到 7B，支持更高的图像分辨率等等。

　　特别是视觉专家模块，通过独特的参数设置精细地建模了视觉与语言序列的交互，确保了在增强视觉理解能力的同时，不会削弱模型在语言处理上的原有优势。

　　升级后能力有多强？

　　在不损失任何通用能力的前提下，在许多关键指标上有了显著提升，如在 OCRbench 基准上性能提升 32%，在 TextVQA 基准上性能提升 21.9%，且模型具备了较强的文档图像理解能力（DocVQA）等。

　　也可以来个更直观的展示：

　　现在，复杂的模型架构图都可以让 CogVLM2 自己描述一遍，而一代的时候我们也测试过，当时还是有难度的。

　　为了更为严格地验证 CogVLM 的性能和泛化能力，一系列多模态基准上的定量评估更能说明问题。

　　CogVLM2 的两个模型，尽管具有较小的模型尺寸，但在多个基准中取得 SOTA 性能；而在其他性能上，也能达到与闭源模型（例如 GPT-4V、Gemini Pro 等）接近的水平。

　　中文能力到位，模型代码试玩开放

　　可能有人会疑惑，Llama3 系列是出了名的能看懂中文，但死活不愿意用中文完整回答，有一种各说各话、跨服交流的美。

　　怎么到 CogVLM2 这里，加入视觉专家模块之后，中文输出能力也这么 6 了？

　　我们就这个问题询问了智谱团队，他们表示为了解决这个问题可费了不少功夫。

　　团队判断 Llama 3 8B Instruct 模型的训练数据中可能包含了大量英文数据，而中文数据的比例相对较低。

　　找到问题，就能对症下药了：

首先，在预训练阶段，团队收集了大量的中文图文数据，涵盖了中文场景的各种情况。

　　特别是针对中文场景进行了 OCR 和文档等类型的数据收集。通过这些数据，我们使得模型在预训练阶段就能够充分接触和理解中文语境。

　　其次，在指令微调阶段也构造了一些高质量的中文数据。这些数据包含了各种中文指令和对应的回答，使得模型能够更好地理解和回答中文问题。在这个过程中确保中英数据的比例在一个合理的范围内，从而使得模型在处理中文问题时能够更加得心应手。

　　通过这些措施，CogVLM2 在支持中文方面就有了显著的提升，无论是在理解中文问题还是在用中文回答问题方面，都成了亮点和优势。

　　比如识别火车票信息，再整理成 json 格式，部分文字反光或者掉色也不受影响。

　　又或者识别并描述复杂户型图，连注释和水印都不放过。

　　又或者识别中文手写字体。

　　甚至古代字体。

　　最后，奉上 CogVLM2 开源相关的一系列链接，感兴趣的朋友可以自取。

　　团队还透露，GLM 新版本会内嵌 CogVLM2 能力，在智谱清言 App 和智谱 AI 大模型 MaaS 开放平台上线。

　　代码仓库：

　　github.com/THUDM/CogVLM2

　　模型下载：

　　Huggingface：huggingface.co/THUDM

　　魔搭社区：modelscope.cn/models/ZhipuAI

　　始智社区：wisemodel.cn/models/ZhipuAI

　　Demo 体验：

　　http://36.103.203.44:7861

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

我们的产品

相关链接

关于我们

联系我们