PulseAugur
实时 21:35:13

Laguna M.1:225B MoE模型以强大的基准性能为目标,专注于代理编码

poolside/Laguna-M.1 模型是一款新的225B参数混合专家(MoE)模型,每个token有23B激活参数,专为代理编码和长时任务设计。它采用大型稀疏MoE架构,包含256个专家和top-k=16路由,全局注意力,以及支持交错思考的原生推理。Laguna M.1 在代理基准测试中表现强劲,包括SWE-bench Verified、SWE-bench Multilingual、SWE-bench Pro和Terminal-Bench 2.0,并根据Apache 2.0许可证发布。 AI

影响 该模型在编码基准测试中的强劲表现有望加速开发更强大的软件工程任务AI代理。

排序理由 来自知名实体(poolside)的新模型发布,包含详细的技术规格和基准性能。[lever_c_demoted from frontier_release: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Laguna M.1:225B MoE模型以强大的基准性能为目标,专注于代理编码

报道来源 [1]

  1. r/LocalLLaMA TIER_1 (TL) · /u/pmttyji ·

    poolside/Laguna-M.1 · Hugging Face - 225B-A23B

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1u9b2i3/poolsidelagunam1_hugging_face_225ba23b/"> <img alt="poolside/Laguna-M.1 · Hugging Face - 225B-A23B" src="https://external-preview.redd.it/vHCU5AFU0BwrXZl0c0jt_f_O2yQ-jV1nc7SNtokYWKU.png?width=640&amp;c…