English(EN) A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

LLM在转换后的基准测试上表现显著下降，表明存在记忆现象

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-23 11:59

研究人员开发了一种结合变异测试和负对数似然的新方法，用于诊断用于程序修复的大型语言模型中的数据泄露。通过创建保留语义的转换后的变体基准测试，他们观察到包括GPT-4o和Llama-3.1在内的多个LLM的修复成功率显著下降。研究发现，在这些转换后的基准测试上的性能下降与模型记忆原始数据的可能性之间存在很强的相关性，这表明这种组合方法为检测和潜在缓解LLM评估中的数据泄露提供了一种更可靠的方式。 AI

影响为软件工程中的LLM引入了一种更鲁棒的评估方法，可能带来更可靠的性能指标。

排序理由学术论文，介绍了一种新的LLM评估方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Annibale Panichella · 2026-04-23 11:59

一种用于诊断 LLM 程序修复中记忆现象的变质测试方法

LLM-based automated program repair (APR) techniques have shown promising results in reducing debugging costs. However, prior results can be affected by data leakage: large language models (LLMs) may memorize bug fixes when evaluation benchmarks overlap with their pretraining data…

报道来源 [1]

一种用于诊断 LLM 程序修复中记忆现象的变质测试方法

相关实体

相关话题