研究人员推出S-Agent,一个旨在增强视觉语言模型(VLMs)在3D环境中进行空间推理的新框架。通过整合时间记忆和空间工具层级,S-Agent能够从多视图图像中持续理解不断演变的3D世界,超越静态的、帧级别的分析。实验表明,S-Agent在无需额外训练的情况下即可提升开源和闭源VLMs的性能,并且微调后的S-Agent-8B版本,其性能可与GPT-5.4和Gemini 3等先进模型相媲美。 AI
影响 增强了VLMs在3D空间理解方面的能力,可能改进机器人和自主系统等应用。
排序理由 该集群包含一篇详细介绍新AI模型框架的研究论文。
在 Hugging Face Daily Papers 阅读 →
- arXiv
- Gemini 3
- GPT-5.4
- Qwen3-VL:8B
- S-Agent
- S-Agent-8B
- Vision--Language Models
- 3D computer graphics
- agent-memory
- Hugging Face
- S-300K
- Scene memory is more detailed than you think: the role of categories in visual long-term memory
- Visual Language Models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →