PulseAugur
实时 06:55:18
实体 hybrid-attention models

hybrid-attention models

PulseAugur coverage of hybrid-attention models — every cluster mentioning hybrid-attention models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_70113 ·

    Moonshot AI论文探讨跨数据中心LLM推理

    来自Moonshot AI和清华大学的一篇新论文提出了一种克服大型语言模型服务中“KV壁垒”的方法。该方法称为“Prefill-as-a-Service”,通过使用混合注意力模型减小KV缓存,并实施智能路由仅卸载必要的请求,从而实现跨数据中心推理。这对于计算密集型和带宽优化型芯片未共置的异构硬件设置至关重要。