PulseAugur
实时 16:03:46
实体 EngTrace

EngTrace

PulseAugur coverage of EngTrace — every cluster mentioning EngTrace across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_96181 ·

    新的EngTrace基准测试LLM的可验证工程推理能力

    研究人员推出EngTrace,这是一个新的符号基准,旨在严格评估大型语言模型(LLM)的工程推理能力。与侧重于孤立技能的现有基准不同,EngTrace评估了科学原理、定量建模和工程任务所需的实际约束的整合。该基准包含90个参数化模板,涵盖三个工程分支和九个领域,生成超过1350个问题实例,并采用新颖的两阶段评估框架,在验证最终答案的同时验证中间推理过程。对27个LLM的评估揭示了数值精度和推理过程保真度之间的权衡,突显了一个复杂性鸿沟…