研究人员开发了ROGLE,一个旨在通过解决细粒度理解和区域级标注稀缺性方面的局限性来改进文本式行人搜索的新框架。该系统利用自动化的区域到句子匹配策略生成伪区域-句子对进行监督,减少了手动标注的需求。ROGLE还将全局对比学习与局部对齐相结合,并引入了P-VLG Benchmark,这是一个包含超过100,000个标注区域和长格式字幕的大型数据集,以支持全局和局部评估。 AI
影响 引入了一种新颖的方法来改进文本式行人搜索中的细粒度理解,可能有利于监控和安全应用。
排序理由 该集群包含一篇详细介绍特定计算机视觉任务的新方法和数据集的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →