arXiv上发表的一项新研究介绍了BOULDER,这是一个旨在评估大型语言模型在面向任务的对话场景下的推理能力的基准。研究发现,与孤立任务相比,模型在对话环境中执行推理任务时性能显著下降。这种下降归因于对话的多轮性、角色设定和工具使用要求,凸显了对更真实的交互式评估的需求。 AI
影响 强调了在真实的交互式场景中评估大型语言模型的推理能力,而不仅仅是孤立的基准。
排序理由 学术论文,介绍了一个用于评估大型语言模型在对话中推理能力的新基准。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →