新的LARE框架通过编码低关注区域来增强文本-图像检索

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 10:00

研究人员推出了一种新颖的LARE（低关注区域编码）框架，旨在改进文本-图像检索，尤其是在包含许多对象的复杂场景中。LARE采用双编码策略，同时处理完整图像及其不太显眼的区域，生成更丰富多样的图像嵌入。为了便于评估，创建了一个名为Dense-Set的新数据集，该数据集来自COCO和Flickr30K，包含重新标注的图像，强调了被忽视的细节，从而能够对检索模型进行更严格的测试。 AI

影响这项研究可能带来更准确的图像搜索和对复杂视觉数据的理解。

排序理由该集群描述了一篇关于计算机视觉任务新颖框架和数据集的最新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Muhammad Kamran J. Khan · 2026-06-17 10:00

LARE：文本-图像检索的低注意力区域编码

Image retrieval in crowded scenes is particularly challenging due to the salience bias of conventional visual encoders, which tend to focus on dominant objects while neglecting low-attention regions that are often crucial for fine-grained retrieval. We propose LARE (Low-Attention…

报道来源 [1]

LARE：文本-图像检索的低注意力区域编码

相关实体

相关话题