实体
Defects4J
Defects4J
PulseAugur coverage of Defects4J — every cluster mentioning Defects4J across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
LLMs show significant performance drops on transformed benchmarks, indicating memorization
Researchers have developed a new method combining metamorphic testing with negative log-likelihood to diagnose data leakage in large language models used for program repair. By creating variant benchmarks through semant…
-
大型语言模型通过新技术在代码编辑、生成和错误检测方面取得进展
研究人员正在探索各种方法来增强大型语言模型(LLM)在代码相关任务中的应用。一项研究评估了本地部署的 LLM,如 LLaMA 3.2 和 Mistral,用于 Python 错误检测,发现它们可以识别错误但难以精确定位。另一篇论文介绍了 TreeCoder,一个通过将解码策略和约束视为可优化组件来优化 LLM 代码生成的框架,提高了在 MBPP 和 SQL-Spider 等基准测试上的准确性。此外,宝马(BMW)的一项案例研究表明,微…