实体 Poolside AI

Poolside AI

PulseAugur coverage of Poolside AI — every cluster mentioning Poolside AI across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

research 3
tool 1
commentary 1

主题

关系

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

SIGNIFICANT · CL_100054 · Jun 19 · 05:53

GLM-5.2 成为顶级开源 AI 模型，可与 GPT-5.5 相媲美

开源语言模型 GLM-5.2 已引起广泛关注，多个来源表明其性能可与 GPT-5.5 和 Anthropic 的 Opus 4.8 等前沿模型相媲美。该模型具有架构改进，包括用于降低长上下文推理成本的 IndexShare，并通过 Hugging Face 和本地实现广泛可用。其他开源模型，如具有 256K 上下文窗口的 Laguna M.1 和 Cohere 的 North Mini Code，也已发布并进行了优化。
RESEARCH · CL_34816 · May 16 · 17:00

开源模型落后于前沿闭源模型，基准测试存在争议

多家领先的 AI 实验室发布了新的开源模型，包括 DeepSeek V4、Gemma 4、Kimi K2.6 和 MiMo 2.5。CAISI 的一项评估表明，这些开源模型落后于前沿闭源模型，且差距正在扩大。然而，评估方法和基准测试的局限性也引发了争议，一些人认为标准化测试未能完全捕捉实际能力，尤其是在编码等复杂任务中。
COMMENTARY · CL_28573 · May 12 · 14:23

博客文章批评人工智能基准测试作弊

Poolside.ai 上的一篇博客文章批评了人工智能开发中“基准测试作弊”的做法。文章认为，专注于为特定基准测试优化模型可能会导致系统在测试中表现良好，但在实际应用中却失败。作者认为这种趋势扭曲了进展，并鼓励对人工智能能力产生肤浅的理解。
RESEARCH · CL_08454 · Apr 29 · 04:12

Poolside AI发布开源权重代理编码模型Laguna XS.2和M.1

Poolside AI推出了两款新的开源权重代理编码模型Laguna XS.2和M.1。这些模型在SWE-bench Verified基准测试中取得了令人印象深刻的分数，M.1达到72.5%，XS.2达到68.2%。XS.2模型是一个拥有330亿参数的模型，其能够在拥有36GB内存的消费级硬件上本地运行，这使得先进的编码助手更加易于获取。
RESEARCH · CL_07734 · Apr 28 · 16:17

Poolside AI 发布开源 Laguna XS.2 和 M.1 编码模型

Poolside AI 发布了两款新的代理式编码模型 Laguna M.1 和 Laguna XS.2，以及它们的代理训练和运行时间。Laguna M.1 是一个大型混合专家（MoE）模型，在 NVIDIA Hopper GPU 上使用 30T 个 token 进行训练，而 Laguna XS.2 是一个较小的开源模型，可在 Apache 2.0 许可下使用。这些模型专为长周期任务设计，旨在实现能够编写和执行代码的更强大的 AI 代理。