English(EN) Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

新基准测试评估LLM生成可视化工作流的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员推出了Chat2Workflow，这是一个旨在评估大型语言模型（LLM）根据自然语言提示生成可执行可视化工作流的能力的新基准测试。该基准测试源自真实世界的业务工作流，旨在自动化当前手动构建工作流的过程，该过程通常成本高昂且容易出错。虽然当前的LLM可以理解高级意图，但它们在生成准确且可部署的工作流方面存在困难，即使是先进的代理基线也只能在解决率方面提高6.05%，这凸显了在工业级自动化方面进一步发展的必要性。 AI

影响该基准测试有望推动通过LLM自动化复杂任务执行的进展，从而可能简化业务流程开发。

排序理由该集群描述了一个用于评估LLM在生成可视化工作流方面能力的新的学术基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang · 2026-05-27 04:00

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

arXiv:2604.19667v2 Announce Type: replace-cross Abstract: At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost e…

报道来源 [1]

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

相关实体

相关话题