实体 H2o Ai

H2o Ai

PulseAugur coverage of H2o Ai — every cluster mentioning H2o Ai across labs, papers, and developer communities, ranked by signal.

总计 · 30天

7

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

research 1
tool 5
commentary 1

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

TOOL · CL_112779 · Jun 26 · 19:15

新的提示压缩器以 100% 的召回率将 LLM 成本削减 65%

Arjun Shah 开发了 SuperCompress，这是一个开源的提示压缩系统，旨在通过智能过滤不相关的内容来降低 LLM 成本。该系统使用轻量级的基于 CPU 的策略，在 GPU 处理之前对低相关性行进行评分和剔除，从而以 100% 的预言召回率实现显著的 token 节省。这种方法不仅降低了计算费用和延迟，还通过减少 LLM 推理相关的能源和水消耗，产生了积极的环境影响。
RESEARCH · CL_108502 · Jun 24 · 10:18

新的 EpiKV 方法优化 LLM KV 缓存，提高效率和上下文长度

一篇新研究论文介绍了一种名为 EpiKV 的方法，用于优化大型语言模型中的 KV 缓存淘汰。与依赖注意力权重的先前方法不同，EpiKV 使用源自模型内部表征变化的“顿悟分数”。这种方法避免了计算注意力矩阵的需要，能够实现融合内核集成，并显著提高上下文长度的处理能力。实验表明，EpiKV 在 MATH-500 和 AIME-2024 等基准测试中表现与基线相当或更优，同时提供了显著的速度提升。
COMMENTARY · CL_87910 · Jun 12 · 13:08

亚马逊去年数据中心消耗25亿加仑水

亚马逊披露了其巨大的水消耗量，去年在其数据中心使用了25亿加仑水。这一数字凸显了大规模计算基础设施对环境的巨大影响。该公司在此之际披露这一信息，正值人们对科技行业，特别是人工智能和云计算业务的水资源需求日益担忧之际。
TOOL · CL_80187 · Jun 9 · 04:00

新框架评估机器人操作中视觉谓词的可靠性

研究人员开发了一个新框架，用于评估理解机器人操作中使用的视觉谓词的可靠性。该框架评估了诸如接触、支撑和抓取等谓词在模糊、遮挡和丢帧等各种退化条件下的表现。在多个数据集上的实验表明，虽然静态谓词相对鲁棒，但动态谓词和派生谓词更容易出错，显著影响下游操作理解的准确性。
TOOL · CL_56286 · May 28 · 04:00

新的GQLA注意力机制优化LLM以适应不同硬件

研究人员开发了Group-Query Latent Attention (GQLA)，这是一种新颖的注意力机制，旨在优化大型语言模型在不同硬件上的解码。GQLA提供两条代数上等价的解码路径，均来自一组训练好的权重：一条MQA-absorb路径适用于H100等高带宽硬件，另一条GQA路径适用于H20等商品GPU。这种适应性无需定制内核或重新训练即可实现高效推理，并支持张量并行。TransGQLA扩展允许将现有的GQA检查点转换为GQLA…
TOOL · CL_38307 · May 18 · 08:41

KV 缓存驱逐保护比评分更重要

研究人员开发了一种管理大型语言模型中 KV 缓存驱逐的新方法，发现结构性保护比评分算法更关键。他们对 Transformer 模型的研究表明，如果没有保护，现有的驱逐策略会显著退化。通过为结构性保护保留一小部分缓存，模型即使在缓存大小有限的情况下，也能恢复相当数量的原始质量。
TOOL · CL_20514 · May 7 · 04:00

量子启发式特征求解器大幅减少参数，提升量子化学性能

研究人员开发了一种名为GQKAE的新型量子启发式特征求解器，旨在提高量子化学领域高性能计算的效率。该模型用混合量子启发式Kolmogorov-Arnold网络模块取代了传统的馈通网络，可将可训练参数和内存使用量显著减少约66%。基准测试表明，GQKAE在实现与现有GPT基方法相当的化学精度方面，同时为复杂系统提供了更优的收敛性和能量误差。