English(EN) MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation

新的MTR-Bench评估大型语言模型的多轮推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员推出了MTR-Bench，这是一个旨在评估大型语言模型多轮推理能力的新基准。该基准包含四个类别的40个任务，总计3600个实例，并设计为无需人工干预即可进行自动化评估。初步实验表明，当前最先进的模型在这些交互式推理任务上表现不佳，突显了AI系统未来研究的领域。 AI

影响为评估LLM在交互式、多轮场景下的性能提供了一种新的标准化方法，推动研究朝着更强大的AI系统发展。

排序理由该集群描述了一篇介绍用于评估AI模型基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xiaoyuan Li, Keqin Bao, Yubo Ma, Moxin Li, Wenjie Wang, Rui Men, Yichang Zhang, Fuli Feng, Dayiheng Liu · 2026-05-22 04:00

MTR-Bench：多轮推理评估的综合基准

arXiv:2505.17123v3 Announce Type: replace Abstract: Recent advances in Large Language Models (LLMs) have shown promising results in complex reasoning tasks. However, current evaluations predominantly focus on single-turn reasoning scenarios, leaving interactive tasks largely unex…