只用提示词,多模态大模型就能更懂场景中的人物关系了。
北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。
在这个过程中,最难的部分在于教会模型识别未见过的人物交互类型。
要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了!
比如下图,先前的检测器在平衡已见和未见类别时遇到了困难,导致调和平均值较低,并且在未见类别上的表现较差。
相比之下,CMMP 方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。
至于 CMMP 方法如何解决未见类别,一句话:
在特征提取过程中使用视觉空间线索,帮助识别未见的人物-物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。
总之,CMMP 方法提供了一种新的范式,可以微调多模态大模型,使其具备泛化的区域级人物交互关系检测能力。
以上研究来自北大王选计算机技术研究所,相关论文已被顶会 ECCV 2024 接收。
零样本人物交互检测新框架
团队提出了一种使用 CMMP 进行零样本 HOI(Human-Object Interaction)检测的新框架。
具体来说,CMMP 将零样本人物交互检测分为两个子任务:
- 交互性感知的视觉特征提取
- 可泛化的交互分类
然后为每个子任务分别提出了解耦的视觉和文本提示,以消除它们之间的依赖性并缓解错误传播。
条件视觉提示(Pv)用于将空间和交互性感知的知识注入图像编码器,并通过实例级视觉先验(Cins)和交互的全局空间模式(Cgsp)进行约束。条件语言提示(PL)通过正则化损失受人设计的提示(CL)的约束。
交互性感知的视觉特征提取
团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练(CLIP),其能力可能仅限于理解图像级的一阶语义。
为了使图像编码器能够区分图像中所有的人物交互性,团队提出将不同粒度的先验知识整合到条件视觉提示中,使其理解为人物交互关系检测任务定制的区域级二阶语义。
具体来说,研究人员将实例级信息作为先验知识融入条件视觉提示中。
给定输入图像,首先使用预训练的物体检测器获取所有实例级先验知识,包括边界框、置信度分数和检测到的实例的语义编码。
此外,为了鼓励每个实例意识到其潜在的交互对象,团队将训练集中交互的全局空间模式(Global Spatial Pattern)与实例级先验知识(Instance-level Visual Prior)结合。
具体来说,对于每个标注的交互人物对,研究人员首先计算其一元和二元空间特征。
随后,使用K-means 聚类算法确定聚类中心,并将其用作交互人物对的代表性空间模式。
全局空间交互模式提供了一种类别无关的代表性空间配置,作为理解已见和未见人物交互概念之间交互性的桥梁。
最终,研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。
可泛化的交互分类
为了在学习人物交互检测任务特定表示的同时保留 CLIP 的可泛化通用知识,团队在文本分支中采用了带有一致性约束的语言感知提示学习(Language-aware Prompt Learning)。
该约束确保已见和未见类别的学习原型(Prototype)之间保持合理的分离边界,不会彼此过度偏离。
具体来说,对于每个动作类别,研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。
类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接,然后通过文本编码器获得。
为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力,研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。
该约束确保已见和未见类别的原型之间保持合理的分离边界,不会彼此过度偏离。
团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。
训练 CMMP
基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框,团队首先应用 ROI-Pooling 来提取不同区域的特征。
然后,将不同区域提取的特征进行融合,并通过交互分类器进行最终的交互类别预测。
整个模型在交互分类训练中使用了 focal loss,同时还应用了语言正则化损失。
实验结果
在结果验证阶段,团队采用人物交互检测常用数据集 HICO-DET,其中的 600 个人物交互类别由 80 个物体类别和 117 个动词类别组成。
为了验证模型的零样本性能,研究人员在 HICO-DET 上评估了五种零样本设置。
为了和现有方法实现公平比较,研究默认采用 ViT-B/16 作为骨干网络。
如下表所示,实验结果表明,CMMP 在所有的零样本设定上,都在未见类上取得了最佳的性能,这证明了引入条件多模态提示的有效性。
如表中每种类型的最后一行所示,通过利用 ViT-L/14 骨干网来扩展 CMMP 以匹配 CLIP4HOI 的 FLOPs,新方法在所有划分中都取得了最佳性能。
这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。
此外,先前的方法在已见和未见类别之间表现出严重的性能差异,表明其缺乏泛化能力。
而本研究的模型能够在很大程度上缓解这一问题,并且在泛化到以前未见的交互类别方面具有很高的潜力,这证实了带有约束的多模态提示的有效性。
更多细节请参考原论文。