PulseAugur
实时 19:48:19
English(EN) SWE-QA: Can Language Models Answer Repository-level Code Questions?

SWE-QA 基准测试 LLM 回答代码仓库级别的问题

研究人员推出了 SWE-QA,这是一个旨在评估语言模型回答有关整个软件仓库问题的能力的新基准。该基准通过关注需要理解多文件依赖关系和软件架构的复杂、真实代码场景,解决了先前数据集的局限性。SWE-QA 包含 576 个源自 GitHub issue 的问答对,并已用于测试多个大型语言模型,其中提出的 agentic 框架显示出潜力。 AI

影响 该基准可以通过测试代码仓库级别的理解能力,推动更强大的软件开发 AI 助手的发展。

排序理由 该集群描述了一个用于评估 LLM 在软件工程任务方面的新学术基准。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

SWE-QA 基准测试 LLM 回答代码仓库级别的问题

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu ·

    SWE-QA: Can Language Models Answer Repository-level Code Questions?

    arXiv:2509.14635v2 Announce Type: replace Abstract: Understanding and reasoning about entire software repositories is an essential capability for intelligent software engineering tools. While existing benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly…