研究人员开发了TimeProVe,一个旨在提高长视频时间推理效率的新颖框架,特别适用于日常活动。该方法使用轻量级模块来提出潜在的答案-证据假设,然后再调用计算成本较高的视觉语言模型(VLM)进行有针对性的验证。为了评估其有效性,团队还引入了OpenTSUBench (OTB),一个用于评估真实世界场景中时间推理能力的新基准。实验表明,TimeProVe显著减少了VLM调用和推理成本,同时在OTB上取得了最先进的成果,并在Charades-STA等其他基准上取得了有竞争力的性能。 AI
影响 该框架可以显著降低分析长视频的计算成本,使高级时间推理在各种应用中更易于实现。
排序理由 该集群描述了一篇提出新颖框架和基准用于视频时间推理的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Ace Robot
- Charades-STA
- LVQA
- OpenTSUBench
- Otley and Ilkley Joint Line
- TimeProVe
- Vision--Language Models
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →