视听世界模型通过声音增强代理模拟

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 04:00

研究人员推出了一种名为视听世界模型（AVWM）的新框架，用于具身代理，该框架整合了视觉和听觉数据。通过整合声音中关键的空间和时间线索，该方法旨在提高代理模拟和理解环境动态的能力。为了促进该领域的研究，他们还创建了AVW-4k，这是一个基准数据集，包含30小时同步的视听轨迹和动作标注。 AI

影响通过整合多感官数据增强代理的规划和推理能力，有可能改善在复杂环境中的导航和交互。

排序理由该集群包含一篇详细介绍新模型和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao, Shijie Cheng · 2026-06-08 04:00

视听世界模型：为具身智能体提供多感官想象力的基础

arXiv:2512.00883v3 Announce Type: replace-cross Abstract: World models simulate environmental dynamics to enable agents to plan and reason about future states. While existing approaches have primarily focused on visual observations, real-world perception inherently involves multi…