新的潜在去噪方法增强了大型多模态模型中的视觉对齐

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-23 06:58

研究人员开发了一种新的潜在去噪框架，以增强大型多模态模型（LMM）中的视觉对齐。该方法通过破坏然后去噪投影的视觉令牌来引入一种视觉监督形式，迫使模型从中间层恢复干净的特征。该方法在各种基准测试中提高了视觉理解和推理能力，包括组合鲁棒性，并且在常见的图像损坏下表现出更少的性能下降，而不会增加推理开销。 AI

影响增强了多模态模型中的视觉理解和鲁棒性，有可能提高涉及图像和文本集成的任务的性能。

排序理由介绍用于改进多模态模型的新颖框架的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 (CA) · Viktor Prasanna · 2026-04-23 06:58

潜在去噪提升大型多模态模型的视觉对齐能力

Large Multimodal Models (LMMs) such as LLaVA are typically trained with an autoregressive language modeling objective, providing only indirect supervision to visual tokens. This often yields weak internal visual representations and brittle behavior under distribution shift. Inspi…

报道来源 [1]

潜在去噪提升大型多模态模型的视觉对齐能力

相关实体

相关话题