English(EN) COAL: Counterfactual and Observation-Enhanced Alignment Learning for Discriminative Referring Multi-Object Tracking

新的COAL框架通过VLM和LLM增强多目标跟踪

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-14 13:06

研究人员开发了一个名为COAL的新框架，以改进指代多目标跟踪，特别是在具有相似对象的复杂场景中。COAL通过使用视觉语言模型（VLM）注入显式语义，并使用LLM进行反事实学习以强制属性验证，来解决稀疏语义监督的挑战。这种方法增强了实例的可区分性，并防止模型依赖于不足的线索，从而实现更鲁棒的组合识别。在Refer-KITTI-V2基准测试中，COAL的HOTA提高了7.28%，超越了现有的最先进方法。 AI

影响提高了复杂视觉场景中的目标跟踪精度，可能使自动驾驶和机器人等应用受益。

排序理由该集群包含一篇详细介绍新框架及其在基准测试上实验验证的新学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Xiaobo Lu · 2026-05-14 13:06

COAL：用于判别性指代多目标跟踪的对抗性和观测增强对齐学习

Referring Multi-Object Tracking (RMOT) faces a fundamental structural contradiction between the high-discriminability demand and the sparse semantic supervision. This mismatch is particularly acute in highly homogeneous scenarios that require fine-grained discrimination over comp…

报道来源 [1]

COAL：用于判别性指代多目标跟踪的对抗性和观测增强对齐学习

相关话题