PulseAugur
实时 16:22:23
English(EN) TRACER: A Semantic-Aware Framework for Fine-Grained Contamination Detection in Code LLMs

新框架应对代码大语言模型和回测中的数据污染问题

两篇新的研究论文解决了大语言模型数据污染的关键问题,特别是在代码生成和回测场景下。第一篇论文介绍了TRACER,一个旨在检测代码中指示污染的语义相似性的框架,即使对于GPT-5等模型也能达到高精度。第二篇论文提出了Shapley-DCLR和TimeSPEC,通过关注驱动决策的声明并确保预测仅基于截止日期前的知识,来衡量和缓解大语言模型回测中的时间污染。 AI

影响 这些方法旨在提高大语言模型评估的可靠性和可信度,这对其安全有效部署至关重要。

排序理由 两篇在arXiv上发表的学术论文,介绍了检测和缓解大语言模型数据污染的新方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Yifeng Di, Xuliang Huang, Tianyi Zhang ·

    TRACER:代码大语言模型中细粒度污染检测的语义感知框架

    arXiv:2605.24079v1 Announce Type: cross Abstract: Data contamination is a known threat to the reliability of model evaluation. However, it remains underexplored in code large language models (LLMs), where contamination often goes beyond exact duplication. We present TRACER, a sem…

  2. arXiv cs.AI TIER_1 English(EN) · Zeyu Zhang, Ryan Chen, Bradly C. Stadie ·

    所有泄露都算数,有些算得更多:LLM回测中的可解释时间污染检测与缓解

    arXiv:2602.17234v2 Announce Type: replace Abstract: Backtesting LLMs on resolved events assumes models reason only from pre-cutoff knowledge, yet pretrained models inevitably leak post-cutoff knowledge. We introduce a claim-level evaluation framework that decomposes prediction ra…