English(EN) SSM Adapters via Hankel Reduced-order Modeling: Injection Site Determines Task Suitability in Long-Context Fine-Tuning

新的SSM适配器在长上下文微调方面优于LoRA

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员开发了一种名为Hankel降阶模型（HRM）适配器的新型参数高效微调（PEFT）方法，该方法利用状态空间模型（SSM）进行长上下文微调。与专注于注意力机制的传统PEFT方法不同，HRM适配器被设计用于注入MLP块，并利用SSM的时间不变性进行高效计算。在使用Mistral-7B进行LongBench等长上下文任务的评估中，HRM适配器表现优于LoRA变体，在准确性和ROUGE-1分数上均取得了显著提升。 AI

影响引入了一种新颖的PEFT方法，提高了长上下文任务的性能，可能影响未来的模型微调策略。

排序理由该集群包含一篇详细介绍语言模型微调新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Omanshu Thapliyal · 2026-06-26 04:00

SSM 适配器通过 Hankel 降阶建模：注入点决定长上下文微调的任务适用性

arXiv:2606.26290v1 Announce Type: cross Abstract: While parameter-efficient fine-tuning (PEFT) typically targets attention projectors, its efficacy for tasks requiring sequential state accumulation remains under-explored. We examine if PEFT for such tasks can benefit from state s…

报道来源 [1]

SSM 适配器通过 Hankel 降阶建模：注入点决定长上下文微调的任务适用性

相关实体

相关话题