English(EN) DRIFT: Refining Instruction Data via On-Policy Data Attribution

新的DRIFT方法优化大型语言模型训练数据以提升性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-18 04:00

研究人员开发了一种新颖的指令数据优化方法DRIFT，旨在提升大型语言模型的性能上限。与专注于子集选择的现有数据策选技术不同，DRIFT旨在改进数据分布本身。它利用策略内影响函数，将模型自身的rollouts作为验证目标，以解决标准影响函数公式中存在的邻近差距和梯度范数偏差等局限性。使用7B参数模型的实验表明，DRIFT能有效提升指令和推理任务的性能，优于当前的数据策选基线。 AI

影响这项研究通过提高训练数据策选的效率和有效性，有望带来更强大的大型语言模型。

排序理由该集群包含一篇详细介绍改进大型语言模型训练数据的新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Zefan Wang, Lincheng Li, Tianyu Yu, Yuan Yao · 2026-06-18 04:00

DRIFT: Refining Instruction Data via On-Policy Data Attribution

arXiv:2606.18307v1 Announce Type: cross Abstract: Optimizing the training data distribution for Supervised Fine-Tuning (SFT) dictates the capability of Large Language Models (LLMs). While existing data curation methods excel at accelerating training under constrained budgets, the…

报道来源 [1]

DRIFT: Refining Instruction Data via On-Policy Data Attribution

相关实体

相关话题