研究人员引入了新的基准和合成数据生成方法,以提高大型多模态模型(LMMs)在自我中心视频数据上的性能。EgoBabyVLM基准侧重于从自然、弱对齐的自我中心视频中进行语言接地,突显了当前LMMs在该领域的局限性。类似地,EgoExoMem使用同步的自我中心和外中心视频来解决跨视图记忆推理问题,表明现有模型难以达到高精度。为了克服数据收集的挑战,EgoInteract提供了一个可控的模拟器,用于生成具有密集注释的合成自我中心视频,并在真实世界基准上展示了改进的模型性能。 AI
影响 自我中心视频理解的进步可以支持更复杂的具身AI代理和人机交互系统。
排序理由 多篇研究论文为自我中心视频理解引入了新的基准和合成数据生成方法。
在 Hugging Face Daily Papers 阅读 →
- EgoInteract
- Rosario Leonardi
- arXiv
- E$^2$-Select
- EgoExoMem
- Hugging Face
- EgoBabyVLM
- Large Multimodal Models
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →