English(EN) Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces

超越高斯瓶颈：视觉 Transformer 特征空间的拓扑对齐编码

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-30 17:12

研究人员开发了一种名为 S$^2$VAE 的新潜在学习框架，旨在改进视觉世界模型中 3D 几何和相机动力学的表示。该方法采用几何优先视角，专注于压缩场景的潜在 3D 状态（包括相机运动和深度），而不仅仅是外观。通过采用一种在瓶颈中具有超球体结构的新型变分自编码器，S$^2$VAE 旨在高压缩率下保留方向和几何语义，在深度估计和姿态恢复等任务中表现优于传统高斯瓶颈。 AI

影响引入了一种新颖的潜在表示技术，以增强视觉世界模型中的几何理解。

排序理由介绍新框架和方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Andrew Bond, Ilkin Umut Melanlioglu, Erkut Erdem, Aykut Erdem · 2026-05-01 04:00

超越高斯瓶颈：Vision-Transformer 特征空间的拓扑对齐编码

arXiv:2604.28122v1 Announce Type: new Abstract: Modern visual world modeling systems increasingly rely on high-capacity architectures and large-scale data to produce plausible motion, yet they often fail to preserve underlying 3D geometry or physically consistent camera dynamics.…
arXiv cs.CV TIER_1 English(EN) · Aykut Erdem · 2026-04-30 17:12

超越高斯瓶颈：Vision-Transformer 特征空间的拓扑对齐编码

Modern visual world modeling systems increasingly rely on high-capacity architectures and large-scale data to produce plausible motion, yet they often fail to preserve underlying 3D geometry or physically consistent camera dynamics. A key limitation lies not only in model capacit…

报道来源 [2]

超越高斯瓶颈：Vision-Transformer 特征空间的拓扑对齐编码

超越高斯瓶颈：Vision-Transformer 特征空间的拓扑对齐编码

相关实体

相关话题