English(EN) STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics

新的STT-Arena基准揭示大型语言模型在动态环境中存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-18 15:27

研究人员推出了STT-Arena，这是一个新的基准，旨在评估大型语言模型在具有时空变化（spatio-temporal changes）的动态环境中适应和重新规划的能力。该基准包含227个交互式任务，模拟了现实世界中可能出现的、任务中途的干扰会使现有计划失效的场景。评估显示，即使是像Claude-4.6-Opus这样最先进的模型，在处理这些动态变化时也面临困难，准确率不到40%。研究还识别了大型语言模型常见的失败模式，例如使用过时的状态（stale states）执行或误判动态触发器（dynamic triggers），并提出了一种改进自适应重新规划能力的技术。 AI

影响突出了当前大型语言模型在现实世界代理应用中的关键局限性，推动了对更鲁棒的自适应规划的研究。

排序理由该集群描述了一篇介绍用于评估AI模型的新型基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ning Miao · 2026-05-18 15:27

STT-Arena：一个具有时空动态的更真实的工具使用环境

Large language models (LLMs) deployed in real-world agentic applications must be capable of replanning and adapting when mid-task disruptions invalidate their prior decisions. Existing dynamic benchmarks primarily measure whether LLMs can detect temporal changes in a timely manne…

报道来源 [1]

STT-Arena：一个具有时空动态的更真实的工具使用环境

相关实体

相关话题