English(EN) Spark3R: Asymmetric Token Reduction Makes Fast Feed-Forward 3D Reconstruction

Spark3R 通过非对称令牌缩减加速三维重建

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-07 13:45

研究人员开发了 Spark3R，一个旨在加速利用 Vision Transformers 的前馈三维重建模型的新框架。该方法通过采用非对称令牌缩减策略来解决处理大量视频输入带来的计算挑战。这种方法根据查询和键值令牌的不同作用选择性地压缩它们，从而在无需重新训练模型的情况下实现显著的加速。 AI

影响引入了一种从视频加速三维重建的方法，有可能实现实时应用并降低复杂场景分析的计算成本。

排序理由这是一篇详细介绍加速现有 AI 模型的新技术方法的学术论文。

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Zecheng Tang, Jiaye Fu, Qiankun Gao, Haijie Li, Yanmin Wu, Jiaqi Zhang, Siwei Ma, Jian Zhang · 2026-05-08 04:00

Spark3R：非对称令牌缩减实现快速前馈三维重建

arXiv:2605.06270v1 Announce Type: new Abstract: Feed-forward 3D reconstruction models based on Vision Transformers can directly estimate scene geometry and camera poses from a small set of input images, but scaling them to video inputs with hundreds or thousands of frames remains…
arXiv cs.CV TIER_1 English(EN) · Jian Zhang · 2026-05-07 13:45

Spark3R：非对称令牌缩减实现快速前馈三维重建

Feed-forward 3D reconstruction models based on Vision Transformers can directly estimate scene geometry and camera poses from a small set of input images, but scaling them to video inputs with hundreds or thousands of frames remains challenging due to the quadratic cost of global…