实体 MTR-Bench

MTR-Bench

PulseAugur coverage of MTR-Bench — every cluster mentioning MTR-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_44822 · May 22 · 04:00

新的MTR-Bench评估大型语言模型的多轮推理能力

研究人员推出了MTR-Bench，这是一个旨在评估大型语言模型多轮推理能力的新基准。该基准包含四个类别的40个任务，总计3600个实例，并设计为无需人工干预即可进行自动化评估。初步实验表明，当前最先进的模型在这些交互式推理任务上表现不佳，突显了AI系统未来研究的领域。
RESEARCH · CL_41825 · May 20 · 05:26

新框架增强了 AI 对话记忆和检索基准

研究人员开发了用于改进长期对话代理和评估对话检索的新框架。MGRetrieval 通过将反思过程植根于历史记忆结构中来增强记忆检索，从而获得更精确和充分的记忆上下文。AgentIR 提供了一个工作负载自适应级联检索基底，可优化融合决策，并使用置信度触发的路由器来跳过不必要的密集通道，从而显著提高速度和代理容量。此外，MTR-Suite 提供了一个统一的框架，用于审计、合成和基准化对话检索，该框架包含一个基于 LLM 的审计器、一个用于…