实体
Visual Geometry Grounded Transformer
Visual Geometry Grounded Transformer
PulseAugur coverage of Visual Geometry Grounded Transformer — every cluster mentioning Visual Geometry Grounded Transformer across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的FGQ方法大幅缩小了视觉几何Transformer模型尺寸
研究人员开发了一种新的训练后量化方法,称为Fisher引导量化(FGQ),以减少视觉几何基础Transformer(VGGT)的内存和计算开销。这些模型用于3D视觉任务,如深度估计和相机姿态预测,拥有数十亿个参数,阻碍了在设备上部署。FGQ通过使用Fisher信息矩阵来指导量化过程并保留关键组件,解决了模型不同部分在不同任务上对量化误差的敏感度差异问题。
-
超越高斯瓶颈:视觉 Transformer 特征空间的拓扑对齐编码
研究人员开发了一种名为 S$^2$VAE 的新潜在学习框架,旨在改进视觉世界模型中 3D 几何和相机动力学的表示。该方法采用几何优先视角,专注于压缩场景的潜在 3D 状态(包括相机运动和深度),而不仅仅是外观。通过采用一种在瓶颈中具有超球体结构的新型变分自编码器,S$^2$VAE 旨在高压缩率下保留方向和几何语义,在深度估计和姿态恢复等任务中表现优于传统高斯瓶颈。