研究人员开发了GA2-CLIP,一个旨在增强视觉语言模型(VLMs)在视频任务中泛化能力的新颖框架。这种即插即用方法通过引入外部监督提示来解决微调过程中语义空间变窄的问题。该方法利用来自其他数据集的预训练提示作为硬标记,并通过可学习的映射层结合软提示标记以防止过拟合。此外,还采用了包括不相关视频集和负面提示在内的通用属性锚点,以保持模型对新类别的泛化能力。 AI
影响 提高了VLM在视频任务中的泛化能力,有望增强下游应用中对未见类别的性能。
排序理由 这是一篇详细介绍改进VLM泛化能力新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →