English(EN) Conditional Multi-Event Temporal Grounding in Long-Form Video

新基准CoMET-Bench解决多事件视频定位问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员推出了CoMET-Bench，这是一个专为长视频中的条件化多事件时序定位（Conditional Multi-Event Temporal Grounding）设计的新基准。现有的基准不足，因为它们通常只定位单个事件或将定位和计数视为独立任务。CoMET-Bench包含一个具有复杂查询的大型数据集，并提出了一个统一的评估协议，以及一个新的Rejection-F1指标，以解决当前方法的局限性。提出的代理框架CoMET-Agent通过将任务重新构建为结构化搜索和聚合，展示了优于GPT-5的性能。 AI

排序理由该集群包含一篇研究论文，介绍了视频时序定位的新基准和方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Yuanhao Zou, Arthad Kulkarni, Lucas Tonanez, Lincoln Spencer, Guangyu Sun, Tianxingjian Ding, Andong Deng, Yi Li, Shuangjun Liu, Yuan Li, Dashan Gao, Ning Bi, Taotao Jing, Shuai Zhang, Chen Chen · 2026-06-16 04:00

Conditional Multi-Event Temporal Grounding in Long-Form Video

arXiv:2606.15320v1 Announce Type: new Abstract: Multimodal large language models have made rapid progress in video temporal grounding, yet real-world applications routinely require localizing every event that satisfies compositional temporal and spatial conditions. Existing bench…

报道来源 [1]

Conditional Multi-Event Temporal Grounding in Long-Form Video

相关实体

相关话题