VL-DINO 利用 CLIP 视觉语言知识增强目标检测

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 04:00

研究人员开发了 VL-DINO，这是一种新的目标检测模型，可有效整合来自 CLIP（一种视觉语言模型）的知识。该模型使用新颖的模块来构建更好的训练样本并融合视觉和文本信息。在 LVIS 基准测试的零样本测试中，VL-DINO 取得了最先进的成果，优于先前的方法。 AI

影响在零样本目标检测基准测试中设定了新的 SOTA，可能提高图像分析能力。

排序理由该集群包含一篇详细介绍新模型架构及其在基准测试中性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Hao Zhang, Qinran Lin, Linqi Song, Yong Li · 2026-06-11 04:00

VL-DINO: Leveraging CLIP Vision-Language Knowledge for Open-Vocabulary Object Detectio

arXiv:2606.11546v1 Announce Type: new Abstract: Vision-language models like CLIP can provide rich semantic priors for open-vocabulary object detection. However, jointly integrating both textual and visual knowledge into detection architectures remains challenging. In this paper, …