研究人员推出了EgoSAT,一个旨在评估视觉语言模型(VLMs)理解以自我为中心的视频流能力的新基准。该基准将各种任务统一到一个单一的流式框架中,要求模型根据顺序到达的视频帧对过去、现在和未来的事件进行推理。在EgoSAT上的评估显示,当前的VLMs在时间推理方面存在困难,并且表现出显著的校准不足,经常对错误的预测表现出高度自信。 AI
影响 该基准将推动视觉语言模型处理和理解顺序的、以自我为中心的视频数据的能力的改进。
排序理由 该集群描述了一个用于评估AI模型的新学术基准,已在arXiv上发布。
- alphaXiv
- arXiv
- CatalyzeX Code Finder for Papers
- computer science
- Computer vision and pattern recognition
- CORE Recommender
- DagsHub
- EgoSAT
- Gotit.pub
- Hugging Face
- Influence Flower
- ScienceCast
- vision-language model
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →