实体 ZAYA1-8B

ZAYA1-8B

PulseAugur coverage of ZAYA1-8B — every cluster mentioning ZAYA1-8B across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 10

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

模型发布 10
论文 5
基础设施 4
其他 1

关系

used by AMD Instinct MI300x 90%
developed by AMD Instinct MI300x 70%

时间线

2026-05-22 product_launch Zyphra released the ZAYA1-8B Mixture-of-Experts model. 来源
2026-05-19 research_milestone Zaya1-8B model achieves a high score on a math benchmark without NVIDIA GPU training. 来源

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

SIGNIFICANT · CL_105330 · Jun 23 · 07:02

Zyphra 的 ZAYA1-8B 模型在 AMD 硬件上展现出强大的推理能力

Zyphra 发布了 ZAYA1-8B，这是一个获得 Apache 2.0 许可的混合专家（Mixture-of-Experts）推理模型，拥有 84 亿总参数和约 7.6 亿激活参数。值得注意的是，该模型完全在 AMD Instinct MI300X GPU 上训练，展示了开源 AI 生态系统的硬件多样性。虽然 ZAYA1-8B 在同等规模的模型中，在数学和推理基准测试上表现强劲，接近前沿模型，但其最佳性能依赖于 Zyphra 对 …
TOOL · CL_89886 · Jun 14 · 03:00

LLM架构通过KV Sharing、Compressed Attention实现长上下文创新

大型语言模型（LLM）架构的最新进展正专注于提高长上下文窗口的效率，解决KV缓存大小和内存带宽等资源限制。例如，Gemma 4采用跨层的KV共享来减小缓存大小，而Laguna XS.2则采用层级特定的注意力预算来更有效地分配计算资源。ZAYA1-8B引入了压缩卷积注意力，以减小缓存大小和注意力FLOPs，DeepSeek V4则结合了改进的超连接（mHC）和压缩注意力机制（CSA/HCA），以实现更稳定高效的长上下文处理。
TOOL · CL_45245 · May 22 · 20:30

新的 8B LLM Zaya1-8B 预示着重大的设计转变

一款新的 80 亿参数本地 LLM Zaya1-8B 被誉为该领域的一次重大设计转变。它的架构似乎与之前的小型推理模型大相径庭，可能标志着 LLM 开发的新方向。
SIGNIFICANT · CL_43334 · May 22 · 03:28

Zyphra 发布 ZAYA1-8B MoE 模型，活跃参数不足 10 亿

Zyphra 发布了 ZAYA1-8B，一个拥有 84 亿参数的混合专家（Mixture-of-Experts）模型，每个 token 仅激活约 7.6 亿参数。该架构使其在数学和编码基准测试中能够达到与更大模型相媲美的性能，包括 Claude 4.5 Sonnet。该模型采用了压缩卷积注意力（Compressed Convolutional Attention）和基于 MLP 的专家选择路由器等架构改进，并在大量 AMD Insti…
TOOL · CL_38440 · May 19 · 05:39

Zaya1-8B 模型在数学测试中不使用 NVIDIA GPU 击败 GPT-5-High

一款名为 Zaya1-8B 的新语言模型，采用混合专家（Mixture-of-Experts）架构，拥有 7.6 亿活跃参数，在 HMMT '25 数学竞赛中展现出令人印象深刻的性能。值得注意的是，该模型在没有任何 NVIDIA GPU 训练的情况下取得了这些成果，这与典型的高性能人工智能训练方式显著不同。Zaya1-8B 在此特定数学基准测试中超越了 GPT-5-High 的表现，得分 89.6%。
RESEARCH · CL_34518 · May 16 · 11:33

大型语言模型架构创新以实现长上下文效率

Sebastian Raschka 的分析强调了开源大型语言模型中旨在提高长上下文效率的最新架构创新。关键进展包括 Google Gemma 4 模型中的 KV 共享和每层嵌入，Laguna XS.2 中的逐层注意力预算，以及 ZAYA1-8B 中的压缩卷积注意力。DeepSeek V4 还集成了 mHC 和压缩注意力，以应对模型处理更长上下文进行推理和代理工作流时日益增长的 KV 缓存大小和内存流量限制。
RESEARCH · CL_23622 · May 8 · 23:21

AMD训练的ZAYA1-8B模型挑战英伟达主导地位

XenoSpectrum发布了ZAYA1-8B，一个在AMD GPU上训练的轻量级、专注于推理的模型。此举旨在通过展示AMD硬件在AI模型开发中的实际效用来挑战英伟达在GPU市场的统治地位。该模型专为高效推理任务而设计。
TOOL · CL_22192 · May 8 · 04:00

Zyphra 的 ZAYA1-8B 模型以 7 亿激活参数媲美更大模型

Zyphra 发布了 ZAYA1-8B，这是一款专注于推理的混合专家模型，拥有 7 亿激活参数。该模型在 AMD 计算平台上从头开始训练，并采用了新颖的四阶段强化学习级联。ZAYA1-8B 通过采用专注于推理的训练方法和保留答案的修剪方案，在数学和编码基准测试中表现出竞争力，即使与规模大得多的模型相比也是如此。
TOOL · CL_20915 · May 7 · 09:00

Zyphra 的 ZAYA1-8B 模型以不足 10 亿参数匹配顶级 AI 基准

Zyphra 发布了 ZAYA1-8B，这是一个开源模型，在数学基准测试中取得了与 DeepSeek-R1 相媲美的性能。该模型在编码任务方面也展现出与 Claude Sonnet 4.5 相竞争的推理能力，并接近 Gemini 2.5 Pro 的水平。值得注意的是，ZAYA1-8B 的活跃参数少于 10 亿。
TOOL · CL_20870 · May 7 · 05:44

Zyphra的ZAYA1-8B MoE模型在AMD硬件上训练，表现优于更大模型

Zyphra AI发布了ZAYA1-8B，一个专家混合（MoE）语言模型，拥有7.6亿个活跃参数和84亿个总参数。该模型在AMD硬件上训练，在数学和编码基准测试中表现出与更大模型相媲美的性能，采用了压缩卷积注意力（Compressed Convolutional Attention）和基于MLP的路由器等创新技术。ZAYA1-8B在Apache 2.0许可下可用，并提供无服务器终端，为设备端应用提供高效部署和低延迟推理。

Zyphra 的 ZAYA1-8B 模型在 AMD 硬件上展现出强大的推理能力

LLM架构通过KV Sharing、Compressed Attention实现长上下文创新

新的 8B LLM Zaya1-8B 预示着重大的设计转变

Zyphra 发布 ZAYA1-8B MoE 模型，活跃参数不足 10 亿

Zaya1-8B 模型在数学测试中不使用 NVIDIA GPU 击败 GPT-5-High

大型语言模型架构创新以实现长上下文效率

AMD训练的ZAYA1-8B模型挑战英伟达主导地位

Zyphra 的 ZAYA1-8B 模型以 7 亿激活参数媲美更大模型

Zyphra 的 ZAYA1-8B 模型以不足 10 亿参数匹配顶级 AI 基准

Zyphra的ZAYA1-8B MoE模型在AMD硬件上训练，表现优于更大模型