English(EN) FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

FocuSFT通过双层优化提升LLM长上下文理解能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 03:30

研究人员开发了FocuSFT，一个新颖的双层优化框架，旨在改进大型语言模型处理长上下文的方式。该方法解决了“注意力稀释”问题，即模型在微调过程中倾向于关注特权标记而非语义相关的标记。通过使用参数化记忆来集中注意力于关键内容，FocuSFT显著提高了在BABILong和RULER等长上下文基准测试上的性能，并在GPQA的代理工具使用方面也取得了进展。 AI

影响增强了LLM在扩展上下文中处理和利用信息的能力，可能提高复杂推理和检索任务的性能。

排序理由该集群包含一篇详细介绍LLM微调新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Bei Yu · 2026-05-11 03:30

FocuSFT：用于稀释感知长上下文微调的双层优化

Large language models can now process increasingly long inputs, yet their ability to effectively use information spread across long contexts remains limited. We trace this gap to how attention budget is spent during supervised fine-tuning (SFT) on long sequences: positional biase…

报道来源 [1]

FocuSFT：用于稀释感知长上下文微调的双层优化

相关实体

相关话题