研究人员发现,旨在提升推理能力的思维链(CoT)微调,会无意中损害混合线性注意力模型的长上下文回忆能力。这种退化在HypeNet和Jet-Nemotron等模型中尤为明显,微调后检索准确率急剧下降。为解决此问题,研究人员开发了一种新的无需训练的方法,称为QK-Restore。该方法选择性地将查询-键投影参数恢复到微调前的状态,在不影响推理性能的情况下有效恢复长上下文回忆能力。 AI
影响 这项研究为在以推理为重点的微调后保持LLM的长上下文能力提供了关键的解决方案,有望提高它们在复杂、长文档任务中的效用。
排序理由 学术论文,详细介绍了一种解决特定LLM训练问题的新方法。
在 Hugging Face Daily Papers 阅读 →
- arXiv
- Chain-of-Thought (CoT)
- Jet-Nemotron
- QK-Restore
- Chain-of-Thought (CoT) fine-tuning
- Hugging Face
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →