PulseAugur
实时 04:46:52
实体 H2o Ai

H2o Ai

PulseAugur coverage of H2o Ai — every cluster mentioning H2o Ai across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
7
90 天内 7
发布 · 30天
0
90 天内 0
论文 · 30天
5
90 天内 5
层级分布 · 90 天
主题
情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 7 条
  1. TOOL · CL_112779 ·

    新的提示压缩器以 100% 的召回率将 LLM 成本削减 65%

    Arjun Shah 开发了 SuperCompress,这是一个开源的提示压缩系统,旨在通过智能过滤不相关的内容来降低 LLM 成本。该系统使用轻量级的基于 CPU 的策略,在 GPU 处理之前对低相关性行进行评分和剔除,从而以 100% 的预言召回率实现显著的 token 节省。这种方法不仅降低了计算费用和延迟,还通过减少 LLM 推理相关的能源和水消耗,产生了积极的环境影响。

  2. RESEARCH · CL_108502 ·

    新的 EpiKV 方法优化 LLM KV 缓存,提高效率和上下文长度

    一篇新研究论文介绍了一种名为 EpiKV 的方法,用于优化大型语言模型中的 KV 缓存淘汰。与依赖注意力权重的先前方法不同,EpiKV 使用源自模型内部表征变化的“顿悟分数”。这种方法避免了计算注意力矩阵的需要,能够实现融合内核集成,并显著提高上下文长度的处理能力。实验表明,EpiKV 在 MATH-500 和 AIME-2024 等基准测试中表现与基线相当或更优,同时提供了显著的速度提升。

  3. COMMENTARY · CL_87910 ·

    亚马逊去年数据中心消耗25亿加仑水

    亚马逊披露了其巨大的水消耗量,去年在其数据中心使用了25亿加仑水。这一数字凸显了大规模计算基础设施对环境的巨大影响。该公司在此之际披露这一信息,正值人们对科技行业,特别是人工智能和云计算业务的水资源需求日益担忧之际。

  4. TOOL · CL_80187 ·

    新框架评估机器人操作中视觉谓词的可靠性

    研究人员开发了一个新框架,用于评估理解机器人操作中使用的视觉谓词的可靠性。该框架评估了诸如接触、支撑和抓取等谓词在模糊、遮挡和丢帧等各种退化条件下的表现。在多个数据集上的实验表明,虽然静态谓词相对鲁棒,但动态谓词和派生谓词更容易出错,显著影响下游操作理解的准确性。

  5. TOOL · CL_56286 ·

    新的GQLA注意力机制优化LLM以适应不同硬件

    研究人员开发了Group-Query Latent Attention (GQLA),这是一种新颖的注意力机制,旨在优化大型语言模型在不同硬件上的解码。GQLA提供两条代数上等价的解码路径,均来自一组训练好的权重:一条MQA-absorb路径适用于H100等高带宽硬件,另一条GQA路径适用于H20等商品GPU。这种适应性无需定制内核或重新训练即可实现高效推理,并支持张量并行。TransGQLA扩展允许将现有的GQA检查点转换为GQLA…

  6. TOOL · CL_38307 ·

    KV 缓存驱逐保护比评分更重要

    研究人员开发了一种管理大型语言模型中 KV 缓存驱逐的新方法,发现结构性保护比评分算法更关键。他们对 Transformer 模型的研究表明,如果没有保护,现有的驱逐策略会显著退化。通过为结构性保护保留一小部分缓存,模型即使在缓存大小有限的情况下,也能恢复相当数量的原始质量。

  7. TOOL · CL_20514 ·

    量子启发式特征求解器大幅减少参数,提升量子化学性能

    研究人员开发了一种名为GQKAE的新型量子启发式特征求解器,旨在提高量子化学领域高性能计算的效率。该模型用混合量子启发式Kolmogorov-Arnold网络模块取代了传统的馈通网络,可将可训练参数和内存使用量显著减少约66%。基准测试表明,GQKAE在实现与现有GPT基方法相当的化学精度方面,同时为复杂系统提供了更优的收敛性和能量误差。