研究人员推出了一种新颖的任务——组合对象检索(COR),旨在通过组合表达式实现图像内的对象级检索。与匹配整个图像的现有组合图像检索(CIR)方法不同,COR专注于定位特定对象并使用像素级掩码对其进行接地。这项新任务要求模型进行复杂的视觉-文本推理,以识别对参考对象的期望修改,即使面对视觉上相似的干扰项。为了支持这项任务,创建了一个名为COR125K的新基准,其中包含跨多个类别的超过125,000个检索三元组。提出的CORE模型在当前的CIR管道和基线方面取得了显著改进,为细粒度的对象级多模态检索奠定了新基础。 AI
影响 这项研究可能带来更精确、更细致的图像搜索能力,改进需要细粒度视觉内容理解的应用。
排序理由 该集群描述了一篇介绍对象级图像检索新任务和基准的新研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- Composed Image Retrieval
- Composed Object Retrieval
- COR125K
- DagsHub
- Hugging Face
- Tong Wang
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →