PulseAugur
实时 16:34:19
English(EN) ROGLE: Robust Global-Local Alignment with Automated Region Supervision for Text-Based Person Search

新框架ROGLE通过自动化区域监督增强文本式行人搜索

研究人员开发了ROGLE,一个旨在通过解决细粒度理解和区域级标注稀缺性方面的局限性来改进文本式行人搜索的新框架。该系统利用自动化的区域到句子匹配策略生成伪区域-句子对进行监督,减少了手动标注的需求。ROGLE还将全局对比学习与局部对齐相结合,并引入了P-VLG Benchmark,这是一个包含超过100,000个标注区域和长格式字幕的大型数据集,以支持全局和局部评估。 AI

影响 引入了一种新颖的方法来改进文本式行人搜索中的细粒度理解,可能有利于监控和安全应用。

排序理由 该集群包含一篇详细介绍特定计算机视觉任务的新方法和数据集的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Zequn Xie, Xibei Jia, Sihang Cai, Shulei Wang, Tao Jin ·

    ROGLE: Robust Global-Local Alignment with Automated Region Supervision for Text-Based Person Search

    arXiv:2606.01825v1 Announce Type: new Abstract: Text-Based Person Search (TBPS) aims to retrieve pedestrian images using natural language queries. However, existing TBPS models, especially those based on CLIP, struggle with fine-grained understanding due to global representationa…