研究人员推出了一种名为“提示覆盖充分性”(Prompt Coverage Adequacy)的新指标,用于测试大语言模型(LLMs)生成的代码。该标准衡量测试套件在多大程度上满足提示要求,类似于传统的代码覆盖率,但操作层面是提示。通过利用大语言模型的注意力机制,“提示覆盖充分性”已显示出比传统代码覆盖方法检测出多 30% 以上的故障的潜力,为大语言模型驱动的软件开发提供了一种更合适的方法。 AI
影响 这项新指标有望提高 AI 生成代码测试的可靠性和有效性,随着大语言模型越来越多地融入软件开发工作流程,这是至关重要的一步。
排序理由 介绍大语言模型驱动软件开发新指标的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →