北京大学的一项新预印本评估了大型语言模型复现物理实验论文数值结果的能力。研究人员发现,包括由GPT-5.3驱动的OpenAI Codex在内的所有测试大型语言模型,端到端回调率均为0%,这意味着它们无法复现任何完整的数值结果。尽管模型展示了对论文方法的深刻理解,但在数据分析和数值模拟方面却持续出错,导致最终结果不正确。研究确定了多种失败模式,例如公式实现错误和复杂物理模型过度简化。 AI
影响 大型语言模型在科学研究中难以处理复杂的数值模拟和数据分析,表明其局限性超出了文本理解能力。
排序理由 学术论文评估大型语言模型在新领域(物理模拟)的能力。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →