研究人员推出TVRBench,这是一个旨在测试基础模型在3D环境中主动导航以匹配目标图像视角能力的新基准。当前模型在此任务上面临巨大挑战,尤其是在需要身体平移或处理多轮视觉历史时。一个统一的训练后框架,特别是视觉-动作监督微调,显示出显著的改进,将一个9B模型的成功率提高到50%以上。该基准旨在推动能够感知和行动于3D空间中的模型的发展。 AI
影响 为评估和训练基础模型中的具身空间智能建立了新的基准,突显了当前的局限性和潜在的训练途径。
排序理由 该集群包含一篇介绍新基准以评估基础模型的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →