两篇新的研究论文介绍了视频问答的基准和模型,这些模型侧重于时间推理和证据关联。EG-VQA基准拥有超过11,000个问答对和时间证据注释,突显出当前模型在准确本地化证据方面存在困难,即使答案是正确的。为了解决这个问题,开发了EG-Reasoner模型,在推理密集型任务上表现有所提高。另外,ViTexQA数据集和FrameThinker模型解决了视频文本理解问题,其中语义是从时间分布的线索中产生的,通过提高ROUGE-L分数,其表现优于最先进的基线。 AI
影响 这些进展旨在通过关注时间推理和证据关联来提高视频理解模型的可靠性和可解释性,这对于实际应用至关重要。
排序理由 两篇研究论文介绍了视频问答的新基准和模型。
- arXiv
- EG-Reasoner
- EG-VQA
- FrameThinker
- Hugging Face
- MLLMs
- reinforcement learning
- ROUGE L Score
- supervised fine-tuning
- Video Large Language Models
- ViTexQA
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →