PulseAugur
实时 05:47:57
实体 PRBench

PRBench

PulseAugur coverage of PRBench — every cluster mentioning PRBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_05463 ·

    大型语言模型难以复现物理实验结果,数值模拟能力欠佳

    北京大学的一项新预印本评估了大型语言模型复现物理实验论文数值结果的能力。研究人员发现,包括由GPT-5.3驱动的OpenAI Codex在内的所有测试大型语言模型,端到端回调率均为0%,这意味着它们无法复现任何完整的数值结果。尽管模型展示了对论文方法的深刻理解,但在数据分析和数值模拟方面却持续出错,导致最终结果不正确。研究确定了多种失败模式,例如公式实现错误和复杂物理模型过度简化。