两篇新的研究论文解决了大语言模型数据污染的关键问题,特别是在代码生成和回测场景下。第一篇论文介绍了TRACER,一个旨在检测代码中指示污染的语义相似性的框架,即使对于GPT-5等模型也能达到高精度。第二篇论文提出了Shapley-DCLR和TimeSPEC,通过关注驱动决策的声明并确保预测仅基于截止日期前的知识,来衡量和缓解大语言模型回测中的时间污染。 AI
影响 这些方法旨在提高大语言模型评估的可靠性和可信度,这对其安全有效部署至关重要。
排序理由 两篇在arXiv上发表的学术论文,介绍了检测和缓解大语言模型数据污染的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →