PulseAugur
实时 02:42:40
English(EN) SSM Adapters via Hankel Reduced-order Modeling: Injection Site Determines Task Suitability in Long-Context Fine-Tuning

新的SSM适配器在长上下文微调方面优于LoRA

研究人员开发了一种名为Hankel降阶模型(HRM)适配器的新型参数高效微调(PEFT)方法,该方法利用状态空间模型(SSM)进行长上下文微调。与专注于注意力机制的传统PEFT方法不同,HRM适配器被设计用于注入MLP块,并利用SSM的时间不变性进行高效计算。在使用Mistral-7B进行LongBench等长上下文任务的评估中,HRM适配器表现优于LoRA变体,在准确性和ROUGE-1分数上均取得了显著提升。 AI

影响 引入了一种新颖的PEFT方法,提高了长上下文任务的性能,可能影响未来的模型微调策略。

排序理由 该集群包含一篇详细介绍语言模型微调新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的SSM适配器在长上下文微调方面优于LoRA

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Omanshu Thapliyal ·

    SSM 适配器通过 Hankel 降阶建模:注入点决定长上下文微调的任务适用性

    arXiv:2606.26290v1 Announce Type: cross Abstract: While parameter-efficient fine-tuning (PEFT) typically targets attention projectors, its efficacy for tasks requiring sequential state accumulation remains under-explored. We examine if PEFT for such tasks can benefit from state s…