GA2-CLIP论文提出通用属性锚点以实现VLM的提示调优

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了GA2-CLIP，一个旨在增强视觉语言模型（VLMs）在视频任务中泛化能力的新颖框架。这种即插即用方法通过引入外部监督提示来解决微调过程中语义空间变窄的问题。该方法利用来自其他数据集的预训练提示作为硬标记，并通过可学习的映射层结合软提示标记以防止过拟合。此外，还采用了包括不相关视频集和负面提示在内的通用属性锚点，以保持模型对新类别的泛化能力。 AI

影响提高了VLM在视频任务中的泛化能力，有望增强下游应用中对未见类别的性能。

排序理由这是一篇详细介绍改进VLM泛化能力新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Bin Wang, Ruotong Hu, Wentong Li, Wenqian Wang, Mingliang Gao, Runmin Cong, Wei Zhang, Xudong Jiang · 2026-04-28 04:00

GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models

arXiv:2511.22125v2 Announce Type: replace Abstract: Visual and textual soft prompt tuning can effectively improve the adaptability of Vision-Language Models (VLMs) in downstream tasks. However, fine-tuning on video tasks impairs the model's generalization ability to unseen classe…

报道来源 [1]

GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models

相关实体

相关话题