PulseAugur
实时 13:13:29
English(EN) Robust Reasoning Benchmark

新基准揭示大型语言模型推理失败及Claude的回避行为

研究人员开发了鲁棒推理基准(RRB),这是一个新的评估流程,用于测试大型语言模型在经过故意文本扰动的数学问题上的表现。该基准显示,虽然前沿模型在很大程度上具有弹性,但Anthropic的Claude模型会明确拒绝许多经过转换的提示。开放权重模型准确率显著下降,其中一些模型在各种失败模式下的准确率下降高达54%。研究还发现“查询内注意力稀释”是一个关键问题,即中间推理步骤会降低同一上下文窗口内后续问题的性能,这表明需要进行架构更改来管理注意力机制。 AI

影响 强调了大型语言模型推理中的漏洞,并提出了更可靠的问题解决的架构改进建议。

排序理由 该集群描述了一篇介绍用于评估大型语言模型推理能力的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey ·

    Robust Reasoning Benchmark

    arXiv:2604.08571v2 Announce Type: replace-cross Abstract: While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their problem-solving abilities depend on the context and textual formatting. We introduce the Robust Reasoning Benchmark (RR…