PulseAugur
实时 07:29:40
English(EN) ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

新框架 ReproRepo 使用 GitHub 问题扩展机器学习可复现性审计

研究人员开发了 ReproRepo,一个旨在提高机器学习论文可复现性审计可扩展性的新框架。该系统利用 GitHub 问题作为真实复现障碍的来源,减少了手动数据整理的需求。在对包括由 GPT-5.5 驱动的 Codex 在内的领先 LLM 代理进行测试时,该框架取得了显著成功,即使在不执行代码的情况下,也为大约 90% 的评估论文识别出至少一个相关问题。 AI

影响 通过提高 LLM 辅助可复现性审计的可扩展性来增强科学严谨性。

排序理由 该集群描述了一个新的框架和对用于科学可复现性的 LLM 代理的评估,已在 arXiv 上发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Ameet Talwalkar ·

    ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

    Reproducing research results from papers and released code is central to scientific progress. Existing works have introduced benchmarks to evaluate whether LLM agents can assist with reproducibility, but they are difficult to scale due to their reliance on substantial manual effo…