新框架提升视觉语言模型处理程序性任务的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-14 15:03

研究人员引入了一个名为 Chain-of-Procedure (CoP) 的新框架，以增强视觉语言模型回答有关程序性任务问题的能力。该框架通过改进基于视觉线索的结构化指令检索，并使图像序列的粒度与文本步骤分解相匹配，从而解决了当前模型的局限性。CoP 首先检索相关指令，然后通过语义分解细化步骤，最后生成下一步动作，在新基准 ProcedureVQA 上取得了高达 13% 的改进。 AI

影响引入了一个新的基准和框架，以提高 AI 从视觉输入理解和推理程序性任务的能力。

排序理由该集群描述了一篇介绍用于视觉语言推理的新颖框架和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Derek F. Wong · 2026-05-14 15:03

Chain-of-Procedure: Hierarchical Visual-Language Reasoning for Procedural QA

Recent advances in vision-language models (VLMs) have achieved impressive results on standard image-text tasks, yet their potential for visual procedure question answering (VP-QA) remains largely unexplored. VP-QA presents unique challenges where users query next-step actions by …

报道来源 [1]

Chain-of-Procedure: Hierarchical Visual-Language Reasoning for Procedural QA

相关实体

相关话题