实体
SamatNext v0.2-B
SamatNext v0.2-B
PulseAugur coverage of SamatNext v0.2-B — every cluster mentioning SamatNext v0.2-B across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新的解码器架构在小型代码模型中展现出改进的保留能力
研究人员开发了 SamatNext v0.2-B,这是一种 3.56 亿参数的混合序列解码器,旨在减轻小型代码模型在课程学习过程中遗忘的问题。该实验模型将差分注意力风格的层与简化的线性状态混合器层交替使用,并采用 RMS 归一化和输出尺度校准。在 Python 代码课程的对照测试中,SamatNext v0.2-B 在后期阶段达到了 100.0% 的通过率,同时保留了早期阶段 98.8% 的语义行为,在保留能力方面显著优于参数匹配的 …
-
新的解码器架构在中小型代码模型中显示出改进的保留能力
研究人员开发了SamatNext v0.2-B,这是一种3.56亿参数的混合序列解码器,旨在减轻中小代码模型在顺序微调过程中遗忘的问题。该实验模型在差分注意力风格层和简化的线性状态混合器层之间交替,采用RMS归一化和输出尺度校准。在受控的Python代码课程实验中,与Transformer基线相比,SamatNext v0.2-B在后续阶段表现出更优越的早期训练阶段保留能力,在后期阶段达到100.0%的通过率,同时保留了98.8%的相邻语义行为。