English(EN) Self-Prophetic Decoding to Unlock Visual Search in LVLMs

新框架 SeProD 通过自预言解码提升 LVLM 视觉搜索能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-27 17:01

研究人员推出了一种新颖的自预言解码框架 SeProD，旨在增强大型视觉语言模型 (LVLM) 的视觉搜索能力。该框架通过在预训练模型和后训练模型之间引入自调节机制，解决了训练后能力下降和长推理上下文中的干扰等挑战。SeProD 利用基于概率的预言采样，使预训练模型能够充当“预言家”，指导后训练模型的 token 接受，从而在不增加额外计算成本的情况下保持连贯的多步推理。 AI

影响 SeProD 提供了一种无需训练、即插即用的解决方案，可提升 LVLM 的视觉搜索和多步推理能力。

排序理由该集群包含一篇详细介绍 LVLM 新框架的研究论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Zhendong He, Qiyuan Dai, Guanbin Li, Liang Lin, Sibei Yang · 2026-05-28 04:00

自预测解码解锁LVLMs中的视觉搜索

arXiv:2605.28741v1 Announce Type: new Abstract: Large Vision-Language Models (LVLMs) are rapidly evolving toward true multimodal reasoning, with visual search representing a concrete instantiation of the thinking-with-images paradigm. However, LVLM visual search faces two key cha…
arXiv cs.CV TIER_1 English(EN) · Sibei Yang · 2026-05-27 17:01

自预测解码解锁LVLMs中的视觉搜索

Large Vision-Language Models (LVLMs) are rapidly evolving toward true multimodal reasoning, with visual search representing a concrete instantiation of the thinking-with-images paradigm. However, LVLM visual search faces two key challenges: incompatibility among intrinsic capabil…

报道来源 [2]

自预测解码解锁LVLMs中的视觉搜索

自预测解码解锁LVLMs中的视觉搜索

相关实体

相关话题