PulseAugur
实时 14:53:56
English(EN) EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

新的EngTrace基准测试LLM的可验证工程推理能力

研究人员推出EngTrace,这是一个新的符号基准,旨在严格评估大型语言模型(LLM)的工程推理能力。与侧重于孤立技能的现有基准不同,EngTrace评估了科学原理、定量建模和工程任务所需的实际约束的整合。该基准包含90个参数化模板,涵盖三个工程分支和九个领域,生成超过1350个问题实例,并采用新颖的两阶段评估框架,在验证最终答案的同时验证中间推理过程。对27个LLM的评估揭示了数值精度和推理过程保真度之间的权衡,突显了一个复杂性鸿沟,即抽象数学预训练不足以充分转化为高级工程推理。 AI

影响 为在安全关键型工程领域评估LLM设定了新标准,有可能推动模型在专业应用中的可靠性改进。

排序理由 该集群包含一篇详细介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Ayesha Gull, Muhammad Usman Safder, Rania Elbadry, Fan Zhang, Veselin Stoyanov, Preslav Nakov, Zhuohan Xie ·

    EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

    arXiv:2511.01650v3 Announce Type: replace-cross Abstract: Large Language Models (LLMs) are increasingly entering specialized, safety-critical engineering workflows governed by strict quantitative standards and immutable physical laws, making rigorous evaluation of their reasoning…