研究人员推出了一系列名为 Llamion 的新型 140 亿参数开放权重语言模型。这些模型通过一种称为高效知识保留转换(KEPT)的技术,将 Orion-14B 模型转换为 Llama 架构。该方法结合了参数映射和跨架构知识蒸馏,以保留 Orion 的行为。Llamion 模型在 KoMMLU 等基准测试中表现出色,超越了现有模型,并保留了 Python 编程和处理 200K token 上下文等能力。 AI
影响 引入了一种将现有大型语言模型高效转换为新架构的方法,可能促进更广泛的应用和定制。
排序理由 该集群描述了一篇关于新语言模型系列创建和性能的最新研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →