研究人员开发了 ReproRepo,一个旨在提高机器学习论文可复现性审计可扩展性的新框架。该系统利用 GitHub 问题作为真实复现障碍的来源,减少了手动数据整理的需求。在对包括由 GPT-5.5 驱动的 Codex 在内的领先 LLM 代理进行测试时,该框架取得了显著成功,即使在不执行代码的情况下,也为大约 90% 的评估论文识别出至少一个相关问题。 AI
影响 通过提高 LLM 辅助可复现性审计的可扩展性来增强科学严谨性。
排序理由 该集群描述了一个新的框架和对用于科学可复现性的 LLM 代理的评估,已在 arXiv 上发布。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →