研究人员推出EngTrace,这是一个新的符号基准,旨在严格评估大型语言模型(LLM)的工程推理能力。与侧重于孤立技能的现有基准不同,EngTrace评估了科学原理、定量建模和工程任务所需的实际约束的整合。该基准包含90个参数化模板,涵盖三个工程分支和九个领域,生成超过1350个问题实例,并采用新颖的两阶段评估框架,在验证最终答案的同时验证中间推理过程。对27个LLM的评估揭示了数值精度和推理过程保真度之间的权衡,突显了一个复杂性鸿沟,即抽象数学预训练不足以充分转化为高级工程推理。 AI
影响 为在安全关键型工程领域评估LLM设定了新标准,有可能推动模型在专业应用中的可靠性改进。
排序理由 该集群包含一篇详细介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- AI Tribunal
- arXiv
- Ayesha Gull
- EngTrace
- Hugging Face
- HumanEval
- large-language models
- Massive Multitask Language Understanding
- Mathematics Dataset
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →