研究人员开发了 Influcoder,这是一种旨在有效归因单个训练数据样本对大型语言模型 (LLM) 影响的新方法。该方法解决了现有影响函数方法的可扩展性和速度限制,使其适用于大型数据集。Influcoder 旨在通过识别可能导致模型出现不良行为(如毒性)的样本来帮助策展高质量数据集。 AI
影响 能够更有效地对大型语言模型进行数据集策展和调试。
排序理由 该集群描述了一篇详细介绍 LLM 数据归因新方法的最新研究论文。
- arXiv
- Data attribution using frequent pattern analysis
- Influcoder
- Influence Functions
- large-language models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →