研究人员开发了一个名为COAL的新框架,以改进指代多目标跟踪,特别是在具有相似对象的复杂场景中。COAL通过使用视觉语言模型(VLM)注入显式语义,并使用LLM进行反事实学习以强制属性验证,来解决稀疏语义监督的挑战。这种方法增强了实例的可区分性,并防止模型依赖于不足的线索,从而实现更鲁棒的组合识别。在Refer-KITTI-V2基准测试中,COAL的HOTA提高了7.28%,超越了现有的最先进方法。 AI
影响 提高了复杂视觉场景中的目标跟踪精度,可能使自动驾驶和机器人等应用受益。
排序理由 该集群包含一篇详细介绍新框架及其在基准测试上实验验证的新学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →