研究人员开发了一种名为Hankel降阶模型(HRM)适配器的新型参数高效微调(PEFT)方法,该方法利用状态空间模型(SSM)进行长上下文微调。与专注于注意力机制的传统PEFT方法不同,HRM适配器被设计用于注入MLP块,并利用SSM的时间不变性进行高效计算。在使用Mistral-7B进行LongBench等长上下文任务的评估中,HRM适配器表现优于LoRA变体,在准确性和ROUGE-1分数上均取得了显著提升。 AI
影响 引入了一种新颖的PEFT方法,提高了长上下文任务的性能,可能影响未来的模型微调策略。
排序理由 该集群包含一篇详细介绍语言模型微调新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- Hankel Reduced order Model
- LongBench
- LoRA
- Mistral-7B
- MLP blocks
- parameter-efficient fine-tuning
- QMSum
- QuALITY
- SSM Adapters
- state space model
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →