研究人员推出CoQuIR,一个旨在评估代码检索系统在功能相关性之外的软件质量维度上的新基准。该基准包含对11种语言的超过42,000个查询和134,000个代码片段在正确性、效率、安全性和可维护性方面的细粒度质量注释。对23个检索模型的初步测试显示,即使是表现最好的模型也常常无法区分有缺陷和健壮的代码,这凸显了当前系统存在的重大差距。研究还探讨了改进质量感知检索的训练方法,并在不影响语义相关性的情况下显示出有希望的结果。 AI
影响 强调了AI系统需要考虑功能正确性之外的软件质量,可能改进开发人员工具。
排序理由 该集群包含一篇介绍AI系统评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →