English(EN) EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

新的EngTrace基准测试LLM的可验证工程推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:00

研究人员推出EngTrace，这是一个新的符号基准，旨在严格评估大型语言模型（LLM）的工程推理能力。与侧重于孤立技能的现有基准不同，EngTrace评估了科学原理、定量建模和工程任务所需的实际约束的整合。该基准包含90个参数化模板，涵盖三个工程分支和九个领域，生成超过1350个问题实例，并采用新颖的两阶段评估框架，在验证最终答案的同时验证中间推理过程。对27个LLM的评估揭示了数值精度和推理过程保真度之间的权衡，突显了一个复杂性鸿沟，即抽象数学预训练不足以充分转化为高级工程推理。 AI

影响为在安全关键型工程领域评估LLM设定了新标准，有可能推动模型在专业应用中的可靠性改进。

排序理由该集群包含一篇详细介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Ayesha Gull, Muhammad Usman Safder, Rania Elbadry, Fan Zhang, Veselin Stoyanov, Preslav Nakov, Zhuohan Xie · 2026-06-17 04:00

EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

arXiv:2511.01650v3 Announce Type: replace-cross Abstract: Large Language Models (LLMs) are increasingly entering specialized, safety-critical engineering workflows governed by strict quantitative standards and immutable physical laws, making rigorous evaluation of their reasoning…

报道来源 [1]

EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

相关实体

相关话题