实体 VGGT-Ω

VGGT-Ω

PulseAugur coverage of VGGT-Ω — every cluster mentioning VGGT-Ω across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 27

发布 · 30天

90 天内 0

论文 · 30天

90 天内 27

层级分布 · 90 天

主题

论文 27
模型发布 10
其他 10
基础设施 5
产品 2

关系

developed Visual Geometry Grounded Transformer 90%
developed Gotit.pub 90%
instance of MASt3R 70%
used by Gotit.pub 70%
used by Visual Geometry Grounded Transformer 70%
instance of $\pi^3$ 70%
developed DUSt3R 50%

时间线

2026-05-14 research_milestone Researchers introduced VGGT-Ω, a new model that improves scene reconstruction accuracy and efficiency. 来源

情绪 · 30 天

12 天有情绪数据

最近 · 第 1/2 页 · 共 27 条

RESEARCH · CL_139188 · Jul 10 · 15:17

新的 Co-VGGT 方法通过隐式共可见性检测增强 3D 重建 · 跟踪到 2 个来源

研究人员开发了 Co-VGGT，这是一种用于 3D 重建和机器人定位中确定共可见性的新方法。该方法利用 VGGT 基础模型，表明其内部表示在没有显式监督的情况下隐式编码了共可见性。Co-VGGT 利用在冻结的 VGGT 层之上训练的轻量级专家混合头，在 Co-VisiON 基准测试上取得了比先前工作显著的改进，并超越了人类标注基线。
RESEARCH · CL_139292 · Jul 10 · 09:18

新的运动恢复结构方法结合基础模型和深度先验以改进3D重建 · 跟踪到4个来源

两篇新的研究论文介绍了先进的运动恢复结构（SfM）重建方法。Glob3R利用3D基础模型并优化前馈几何预测，以实现鲁棒且准确的场景重建。DGSfM通过整合单目深度图作为先验来增强全局SfM，通过深度感知求解器和一致性检查来提高鲁棒性和姿态准确性。
TOOL · CL_133660 · Jul 9 · 04:00

EventVGGT框架通过跨模态蒸馏增强深度估计

研究人员开发了EventVGGT，一个新颖的用于事件单目深度估计的框架，该框架解决了密集深度标注稀缺的问题。该方法通过将事件流视为连贯的视频序列，利用来自视觉基础模型（VFMs）的跨模态蒸馏，从而捕获时间连续性和先验知识。该框架采用三级蒸馏策略，包括跨模态特征混合、时空特征蒸馏和时间一致性蒸馏，以提高深度预测的准确性和时间一致性。实验表明，EventVGGT的性能显著优于现有方法，在EventScape数据集上将30米处的绝对平均深度…
TOOL · CL_131470 · Jul 8 · 04:00

新的MECo-WAM模型通过4D几何先验增强机器人操作能力

研究人员开发了MECo-WAM，这是一种新颖的世界动作模型，旨在通过整合4D几何先验来增强机器人操作能力。该模型在不增加推理成本的情况下，将与动作相关的几何信息注入到视频-动作表示中。MECo-WAM采用多专家协同训练方法，包括一个轻量级的4D专家，并采用衰减的4D读掩码注意力和动作感知时间几何蒸馏等技术，以提高在LIBERO和RoboTwin 2.0等任务以及现实世界操作中的性能。
TOOL · CL_129382 · Jul 7 · 04:00

RayTun3R 将 3D 基础模型适配鱼眼相机

研究人员开发了 RayTun3R，一种将现有 3D 基础模型适配于鱼眼相机图像的新颖方法。这些模型通常在标准针孔相机上表现良好，但在处理鱼眼镜头提供的更宽视场时性能会显著下降。RayTun3R 通过对预训练模型中的轻量级组件（特别是与位置编码和预测网格坐标相关的组件）进行最小的调整来解决这个问题，同时保持核心网络不变。这种参数高效的方法，仅需要 10,752 个可训练参数，即可快速学习并应用于后续帧，而不会增加推理时间，从而显著降低了旋转误差。
RESEARCH · CL_128669 · Jul 6 · 06:48

新的视觉定位系统RIC-Loc绕过了场景训练

研究人员开发了RIC-Loc，一种新颖的视觉定位系统，不需要场景特定的训练或预先计算的3D地图点。该系统利用冻结的VGGT模型来预测相机姿态和轨迹，从参考点生成姿态假设。然后，这些假设被用来稳健地估计查询姿态并导出可靠性分数，从而有效地检测各种环境中的失败，包括低纹理区域。
TOOL · CL_123375 · Jul 3 · 04:00

新框架将3D重建模型适配到鱼眼镜头

研究人员开发了Fisheye3R，一个旨在适配现有3D重建基础模型以有效处理鱼眼镜头图像的新框架。这些模型通常在标准透视图像上训练，在遇到鱼眼镜头的高径向畸变时性能会下降。Fisheye3R使这些模型能够处理鱼眼输入，而不会影响在透视图像上的性能，即使鱼眼训练数据有限。实验表明，在VGGT-Ω、$\pi^3$和MapAnything等多个基础模型上，相机姿态、深度和点图估计均有所改进。
TOOL · CL_123300 · Jul 2 · 08:37

新方法提升几何 Transformer 的可扩展性和性能

一篇新的研究论文介绍了一种改进几何 Transformer（如 VGGT）的可扩展性和性能的方法。所提出的框架将视图划分为多样性感知的块，将注意力集中在几何信息丰富的视角上，并减少冗余。这种方法在相机姿态估计和三维重建等任务中提高了性能，同时减少了内存使用和推理时间。
TOOL · CL_118133 · Jun 30 · 04:00

UniPR-3D利用多视图几何Transformer推进视觉定位识别

研究人员推出了一种新颖的视觉定位识别（VPR）架构UniPR-3D，该架构能有效利用多视图信息。该系统采用VGGT骨干网络来编码3D表示，并整合2D和3D特征以增强定位识别能力。UniPR-3D在性能上优于现有的单视图和多视图方法，在相关领域树立了新的最先进水平。该项目的代码和模型计划在GitHub上公开发布。
TOOL · CL_118016 · Jun 30 · 04:00

Ground4D 框架从单个视频重建 4D 场景

研究人员推出 Ground4D，一个用于从单目视频重建 4D 场景的新型框架。这种两阶段方法首先利用 3D 基础模型，特别是 VGGT，在无需大量训练的情况下建立几何一致的 3D 结构和相机姿态。第二阶段使用动态高斯泼溅法（dynamic Gaussian Splatting）来优化此结构，确保在可微分渲染过程中实现多视图几何一致性，并支持在任意时间戳进行渲染。Ground4D 旨在通过将几何先验集成到动态高斯优化中来提高重建保真度和渲染性能。
TOOL · CL_117750 · Jun 30 · 04:00

新的强化学习框架增强了三维场景编辑中的多视图一致性

研究人员开发了RL3DEdit，一个利用强化学习来提高三维场景编辑中多视图一致性的新颖框架。该方法通过利用二维扩散模型和名为VGGT的三维基础模型，解决了成对三维编辑数据稀缺的问题。RL3DEdit使用VGGT的输出置信度和姿态估计误差作为奖励信号来指导编辑过程，有效地将二维编辑先验与三维一致性流形对齐。实验表明，该方法实现了稳定的多视图一致性，并在编辑质量和效率方面优于现有技术。
RESEARCH · CL_107896 · Jun 23 · 17:12

新基准评估文本到视频模型中的3D一致性

研究人员推出了GeoT2V-Bench，一个旨在评估文本到视频（T2V）模型3D一致性的新基准。该基准评估T2V模型的视频输出是否能够支持静态场景的准确3D重建。GeoT2V-Bench分析了生成视频的各个方面，包括相机运动、静态渲染错误以及灵活和静态场景拟合之间的差异，以识别标准视觉可信度检查可能遗漏的故障模式。
RESEARCH · CL_105024 · Jun 22 · 00:00

新框架 DR-MV3D 通过密集奖励增强三维视觉问答能力

研究人员推出 DR-MV3D，一个旨在增强多视图三维视觉问答 (MV3D-VQA) 的新框架。该方法利用密集、可验证的奖励来监督推理过程，超越了当前多模态 LLM 中常见的稀疏、答案级别的监督。DR-MV3D 将任务分解为全局地图构建、视图轨迹规划和通过以自我为中心的定位进行答案预测，采用全局一致性和局部轨迹选择的奖励来提高在 MindCube 和 VSI-Bench 等数据集上的性能。
TOOL · CL_104009 · Jun 16 · 19:41

RegimeVGGT通过分层压缩加速3D场景重建

研究人员开发了RegimeVGGT，一种提高视觉几何基础Transformer（VGGT）在3D场景重建中效率的方法。与之前应用统一计算缩减的方法不同，RegimeVGGT使用针对不同网络层特定需求的量身定制的分层压缩。这种方法可以保护显著的token并保留姿态估计的关键信息，从而在不牺牲重建质量的情况下显著提高速度。
TOOL · CL_97682 · Jun 16 · 19:41

RegimeVGGT 通过逐层压缩加速三维场景重建

研究人员开发了 RegimeVGGT，一种加速视觉几何基础 Transformer (VGGT) 进行三维场景重建的新方法。通过分析逐层的计算需求，RegimeVGGT 应用了有针对性的压缩技术，包括显著性引导合并和选择性下采样，以在不牺牲重建质量的情况下减少冗余。该方法比原始 VGGT 实现了 6.7 倍的加速，使得密集三维场景结构恢复更具可扩展性。
TOOL · CL_93911 · Jun 16 · 04:00

新的G2IA框架增强了跨摄像头和LiDAR数据的机器人导航能力

研究人员推出了一种新颖的框架G2IA，旨在提高机器人使用摄像头和LiDAR地图进行导航时的跨模态地点识别能力。G2IA解决了图像和点云之间数据类型差异以及在视觉上相似的城市环境中存在的感知混淆问题。该框架采用两阶段过程：首先，通过将视觉几何和实例特征与LiDAR数据对齐来检索潜在位置；其次，通过跨模态验证局部形状和空间布局的一致性来精炼这些候选位置。在公开基准上的实验结果表明，G2IA提高了图像到点云地点识别的准确性，并在不同数据集上…
RESEARCH · CL_93089 · Jun 15 · 09:49

VGGT模型不确定性质量分析，以改进3D重建

一篇新论文分析了Visual Geometry Grounded Transformer (VGGT) 模型的不确定性质量，该模型最近获得了CVPR 2025的最佳论文奖。研究确定了一个用于过滤VGGT输出的置信度阈值，并提出改进不确定性估计可以提高3D重建的准确性。VGGT能够在一个统一的前馈通道中完成相机姿态、深度图和3D结构预测。
TOOL · CL_77216 · Jun 8 · 02:33

3D AI 进展：物体关节、4D 动态与高效重建

3D 计算机视觉的最新研究正超越简单的形状重建，转向理解物体的关节、运动和高效处理。CVPR 2026 上发表的论文探讨了 AI 如何推断物体的可动部件及其功能，如 PARTICULATE 框架所示。此外，Velox 等新方法正在学习动态 4D 物体的紧凑表示，捕捉随时间变化的几何形状和外观。效率也是一个关键焦点，HeSS 等研究开发了优化 VGGT 等复杂模型的技术，以实现更快、更准确的 3D 重建。
RESEARCH · CL_63066 · May 29 · 10:32

新型Transformer增强3D场景重建和边缘部署

研究人员开发了基于Transformer的新模型，用于从视觉输入进行3D场景重建。DVGT（Driving Visual Geometry Transformer）在无需显式几何先验的情况下，从无姿态的多视图图像中重建密集3D点图，并在多样化的驾驶数据集上进行训练。VG^2GT通过使用冻结的视觉基础模型和体素模块直接回归高斯原始参数来增强高斯溅射，从而降低了训练成本并优于现有方法。QVGGT通过引入量化框架，选择性地应用混合精度和令牌…
RESEARCH · CL_56533 · May 27 · 15:09

可变形高斯占用框架增强3D动态场景理解

研究人员推出了一种新颖的框架 DeGO，用于通过解耦刚性和非刚性运动来理解动态3D环境。该方法利用可变形高斯占用和分解的4D基础模型蒸馏，借鉴 VGGT 基础模型的知识来提高时间一致性。在 Occ3D-NuScenes 基准测试上的实验表明，DeGO 在弱监督下取得了最先进的成果，在以人为中心的实例上取得了显著的进步。

新的 Co-VGGT 方法通过隐式共可见性检测增强 3D 重建 · 跟踪到 2 个来源

新的运动恢复结构方法结合基础模型和深度先验以改进3D重建 · 跟踪到4个来源

EventVGGT框架通过跨模态蒸馏增强深度估计

新的MECo-WAM模型通过4D几何先验增强机器人操作能力

RayTun3R 将 3D 基础模型适配鱼眼相机

新的视觉定位系统RIC-Loc绕过了场景训练

新框架将3D重建模型适配到鱼眼镜头

新方法提升几何 Transformer 的可扩展性和性能

UniPR-3D利用多视图几何Transformer推进视觉定位识别

Ground4D 框架从单个视频重建 4D 场景

新的强化学习框架增强了三维场景编辑中的多视图一致性

新基准评估文本到视频模型中的3D一致性

新框架 DR-MV3D 通过密集奖励增强三维视觉问答能力

RegimeVGGT通过分层压缩加速3D场景重建

RegimeVGGT 通过逐层压缩加速三维场景重建

新的G2IA框架增强了跨摄像头和LiDAR数据的机器人导航能力

VGGT模型不确定性质量分析，以改进3D重建

3D AI 进展：物体关节、4D 动态与高效重建

新型Transformer增强3D场景重建和边缘部署

可变形高斯占用框架增强3D动态场景理解