PulseAugur
实时 08:11:57
English(EN) SamatNext v0.2-B: An Exploratory Study of RMS-Normalized Hybrid Decoders for Curriculum Retention in Small Code Models

新的解码器架构在中小型代码模型中显示出改进的保留能力

研究人员开发了SamatNext v0.2-B,这是一种3.56亿参数的混合序列解码器,旨在减轻中小代码模型在顺序微调过程中遗忘的问题。该实验模型在差分注意力风格层和简化的线性状态混合器层之间交替,采用RMS归一化和输出尺度校准。在受控的Python代码课程实验中,与Transformer基线相比,SamatNext v0.2-B在后续阶段表现出更优越的早期训练阶段保留能力,在后期阶段达到100.0%的通过率,同时保留了98.8%的相邻语义行为。 AI

影响 这项研究可能带来更强大的中小代码模型,使其在微调过程中能更好地保留所学信息。

排序理由 该集群包含一篇学术论文,详细介绍了代码模型新模型架构的探索性研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的解码器架构在中小型代码模型中显示出改进的保留能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Samat Zharassov ·

    SamatNext v0.2-B:一项关于RMS归一化混合解码器在小型代码模型课程保留方面的探索性研究

    Standard autoregressive Transformer decoders can often exhibit substantial forgetting under sequential fine-tuning on shifting curriculum distributions. This technical report evaluates SamatNext v0.2-B, an experimental 356M-parameter hybrid sequence decoder that alternates Differ…