研究人员开发了InterPartAbility,一种新颖的文本引导行人重识别方法,增强了可解释性。该方法将图像的部件显式地与文本描述进行匹配,实现了短语-区域对齐。一个新的补丁-短语交互模块指导模型关注相关的图像区域,CLIP ViT自注意力被约束以产生与部件级短语对齐的空间集中激活。InterPartAbility在CUHK-PEDES和ICFG-PEDES等基准测试中实现了最先进的可解释性,同时保持了强大的检索准确性。 AI
影响 提高了行人重识别任务中视觉-语言模型的解释性。
排序理由 该集群包含一篇介绍行人重识别新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →