实体 Defects4J

Defects4J

PulseAugur coverage of Defects4J — every cluster mentioning Defects4J across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_82687 · Jun 10 · 04:00

新型 LLM 加速软件开发中的 Bug 检测

研究人员开发了一种名为 MLC 的新型多任务大型语言模型（LLM），专为软件开发中的行级 Bug 分类而设计。该模型通过提供一种轻量级方法来解决现有 Bug 定位技术的局限性，与计算成本更高的方法相比，显著降低了推理延迟。MLC 在行级 Bug 定位任务上取得了最先进的性能，并展示了跨不同编程语言的强大泛化能力。
TOOL · CL_79877 · Jun 9 · 04:00

新框架提升 AI 生成软件测试的可靠性

研究人员开发了一个名为 GATF 的新框架，以提高自主软件测试中 AI 生成测试工件的可靠性和透明度。该框架通过将治理验证、可解释性分析和风险评估整合到测试生命周期中，解决了幻觉、合规性违规和安全风险等问题。实验表明，GATF 显著降低了治理相关风险，并在治理、可靠性、合规性和可解释性方面取得了高准确率。
RESEARCH · CL_03041 · Apr 23 · 11:59

LLM在转换后的基准测试上表现显著下降，表明存在记忆现象

研究人员开发了一种结合变异测试和负对数似然的新方法，用于诊断用于程序修复的大型语言模型中的数据泄露。通过创建保留语义的转换后的变体基准测试，他们观察到包括GPT-4o和Llama-3.1在内的多个LLM的修复成功率显著下降。研究发现，在这些转换后的基准测试上的性能下降与模型记忆原始数据的可能性之间存在很强的相关性，这表明这种组合方法为检测和潜在缓解LLM评估中的数据泄露提供了一种更可靠的方式。
RESEARCH · CL_00258 · May 4 · 00:00

大型语言模型通过新技术在代码编辑、生成和错误检测方面取得进展

研究人员正在探索各种方法来增强大型语言模型（LLM）在代码相关任务中的应用。一项研究评估了本地部署的 LLM，如 LLaMA 3.2 和 Mistral，用于 Python 错误检测，发现它们可以识别错误但难以精确定位。另一篇论文介绍了 TreeCoder，一个通过将解码策略和约束视为可优化组件来优化 LLM 代码生成的框架，提高了在 MBPP 和 SQL-Spider 等基准测试上的准确性。此外，宝马（BMW）的一项案例研究表明，微…

新型 LLM 加速软件开发中的 Bug 检测

新框架提升 AI 生成软件测试的可靠性

LLM在转换后的基准测试上表现显著下降，表明存在记忆现象

大型语言模型通过新技术在代码编辑、生成和错误检测方面取得进展