新的解码器架构在小型代码模型中展现出改进的保留能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员开发了 SamatNext v0.2-B，这是一种 3.56 亿参数的混合序列解码器，旨在减轻小型代码模型在课程学习过程中遗忘的问题。该实验模型将差分注意力风格的层与简化的线性状态混合器层交替使用，并采用 RMS 归一化和输出尺度校准。在 Python 代码课程的对照测试中，SamatNext v0.2-B 在后期阶段达到了 100.0% 的通过率，同时保留了早期阶段 98.8% 的语义行为，在保留能力方面显著优于参数匹配的 Transformer 基线。 AI

影响引入了一种新颖的解码器架构，可能提高小型代码模型的课程保留能力并减少遗忘。

排序理由这是一篇详细介绍实验模型架构及其在特定基准测试中性能的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Samat Zharassov · 2026-06-30 04:00

SamatNext v0.2-B: An Exploratory Study of RMS-Normalized Hybrid Decoders for Curriculum Retention in Small Code Models

arXiv:2606.22248v2 Announce Type: replace-cross Abstract: Standard autoregressive Transformer decoders can often exhibit substantial forgetting under sequential fine-tuning on shifting curriculum distributions. This technical report evaluates SamatNext v0.2-B, an experimental 356…

报道来源 [1]

SamatNext v0.2-B: An Exploratory Study of RMS-Normalized Hybrid Decoders for Curriculum Retention in Small Code Models

相关实体

相关话题