研究人员推出了 SWE-QA,这是一个旨在评估语言模型回答有关整个软件仓库问题的能力的新基准。该基准通过关注需要理解多文件依赖关系和软件架构的复杂、真实代码场景,解决了先前数据集的局限性。SWE-QA 包含 576 个源自 GitHub issue 的问答对,并已用于测试多个大型语言模型,其中提出的 agentic 框架显示出潜力。 AI
影响 该基准可以通过测试代码仓库级别的理解能力,推动更强大的软件开发 AI 助手的发展。
排序理由 该集群描述了一个用于评估 LLM 在软件工程任务方面的新学术基准。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →