研究人员开发了一个名为SAGA的新框架,该框架利用多模态大语言模型(MLLMs)来改进用于图像检索的视觉嵌入。与使用统一标量距离的传统方法不同,SAGA利用来自冻结的多模态大语言模型的特定属性梯度来提供更细致的监督。这种方法增强了编码器捕捉图像之间区分性属性的能力,从而在多个基准数据集上显著提高了零样本图像检索性能。 AI
影响 通过为视觉嵌入提供属性感知监督来增强图像检索,性能优于最先进的基线。
排序理由 该集群包含一篇详细介绍新研究框架和方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Cars-196
- CUB-200-2011
- FGVC-Aircraft
- Group Relative Policy Optimization
- GRPO
- iNaturalist Aves
- SAGA
- Shubhang Bhatnagar
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →