English(EN) Reasoning Gets Harder for LLMs Inside A Dialogue

研究发现：大型语言模型在对话场景下的推理性能显著下降

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

arXiv上发表的一项新研究介绍了BOULDER，这是一个旨在评估大型语言模型在面向任务的对话场景下的推理能力的基准。研究发现，与孤立任务相比，模型在对话环境中执行推理任务时性能显著下降。这种下降归因于对话的多轮性、角色设定和工具使用要求，凸显了对更真实的交互式评估的需求。 AI

影响强调了在真实的交互式场景中评估大型语言模型的推理能力，而不仅仅是孤立的基准。

排序理由学术论文，介绍了一个用于评估大型语言模型在对话中推理能力的新基准。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Ivan Kart\'a\v{c}, Mateusz Lango, Ond\v{r}ej Du\v{s}ek · 2026-04-30 04:00

对话中大型语言模型的推理难度增加

arXiv:2603.20133v2 Announce Type: replace Abstract: Large Language Models (LLMs) achieve strong performance on many reasoning benchmarks, yet these evaluations typically focus on isolated tasks that differ from real-world usage in task-oriented dialogue (TOD). In this setting, LL…