研究人员开发了 SamatNext v0.2-B,这是一种 3.56 亿参数的混合序列解码器,旨在减轻小型代码模型在课程学习过程中遗忘的问题。该实验模型将差分注意力风格的层与简化的线性状态混合器层交替使用,并采用 RMS 归一化和输出尺度校准。在 Python 代码课程的对照测试中,SamatNext v0.2-B 在后期阶段达到了 100.0% 的通过率,同时保留了早期阶段 98.8% 的语义行为,在保留能力方面显著优于参数匹配的 Transformer 基线。 AI
影响 引入了一种新颖的解码器架构,可能提高小型代码模型的课程保留能力并减少遗忘。
排序理由 这是一篇详细介绍实验模型架构及其在特定基准测试中性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →