English(EN) SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

SPARC框架解耦视觉语言模型（VLM）的感知和推理，以实现增强的扩展性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-25 04:00

研究人员开发了SPARC，一个旨在提高视觉语言模型（VLM）性能和可扩展性的新框架。SPARC将视觉感知与推理分离，允许在推理过程中动态调整token预算。这种模块化方法能够独立优化感知和推理电路，从而提高效率和准确性，尤其是在分布外场景中。SPARC在具有挑战性的视觉推理任务上展示了显著的性能提升，优于单体基线模型，并降低了计算成本。 AI

影响这种视觉语言模型（VLM）架构的模块化方法可能带来更高效、更适应复杂视觉推理任务的模型。

排序理由该集群包含一篇详细介绍视觉语言模型（VLM）新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Niccolo Avogaro, Nayanika Debnath, Li Mi, Thomas Frick, Junling Wang, Zexue He, Hang Hua, Konrad Schindler, Mattia Rigotti · 2026-06-25 04:00

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

arXiv:2602.06566v3 Announce Type: replace-cross Abstract: Despite recent successes, test-time scaling -- i.e., dynamically expanding the token budget during inference as needed -- remains brittle for vision-language models (VLMs). Unstructured visual reasoning chains entangle per…

报道来源 [1]

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

相关实体

相关话题