PulseAugur
实时 16:25:15
English(EN) MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation

新的MTR-Bench评估大型语言模型的多轮推理能力

研究人员推出了MTR-Bench,这是一个旨在评估大型语言模型多轮推理能力的新基准。该基准包含四个类别的40个任务,总计3600个实例,并设计为无需人工干预即可进行自动化评估。初步实验表明,当前最先进的模型在这些交互式推理任务上表现不佳,突显了AI系统未来研究的领域。 AI

影响 为评估LLM在交互式、多轮场景下的性能提供了一种新的标准化方法,推动研究朝着更强大的AI系统发展。

排序理由 该集群描述了一篇介绍用于评估AI模型基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Xiaoyuan Li, Keqin Bao, Yubo Ma, Moxin Li, Wenjie Wang, Rui Men, Yichang Zhang, Fuli Feng, Dayiheng Liu ·

    MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation

    arXiv:2505.17123v3 Announce Type: replace Abstract: Recent advances in Large Language Models (LLMs) have shown promising results in complex reasoning tasks. However, current evaluations predominantly focus on single-turn reasoning scenarios, leaving interactive tasks largely unex…