研究人员开发了SamatNext v0.2-B,这是一种3.56亿参数的混合序列解码器,旨在减轻中小代码模型在顺序微调过程中遗忘的问题。该实验模型在差分注意力风格层和简化的线性状态混合器层之间交替,采用RMS归一化和输出尺度校准。在受控的Python代码课程实验中,与Transformer基线相比,SamatNext v0.2-B在后续阶段表现出更优越的早期训练阶段保留能力,在后期阶段达到100.0%的通过率,同时保留了98.8%的相邻语义行为。 AI
影响 这项研究可能带来更强大的中小代码模型,使其在微调过程中能更好地保留所学信息。
排序理由 该集群包含一篇学术论文,详细介绍了代码模型新模型架构的探索性研究。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- DeltaNet
- Differential attention-dependent response modulation across cell classes in macaque visual area V4.
- Hugging Face
- Python
- SamatNext v0.2-B
- transformer
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →