实体 LRU

LRU

PulseAugur coverage of LRU — every cluster mentioning LRU across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_38307 · May 18 · 08:41

KV 缓存驱逐保护比评分更重要

研究人员开发了一种管理大型语言模型中 KV 缓存驱逐的新方法，发现结构性保护比评分算法更关键。他们对 Transformer 模型的研究表明，如果没有保护，现有的驱逐策略会显著退化。通过为结构性保护保留一小部分缓存，模型即使在缓存大小有限的情况下，也能恢复相当数量的原始质量。
TOOL · CL_36599 · May 15 · 15:18

Looped SSMs 通过深度递归提升时间序列分类性能

研究人员推出了一种新颖的状态空间模型（SSM）方法——Looped SSMs，用于时间序列分类。该方法通过应用深度递归来提高性能，其中模型块跨层重用，类似于循环 Transformer。研究还强调了输入重塑技术（如连接或展平时间步）的显著优势，这些技术进一步提高了准确性。
TOOL · CL_20119 · May 6 · 00:00

Apple 研究人员发布 SpecMD 以加速 MoE 模型推理

Apple 的机器学习研究团队发表了一篇论文，详细介绍了 SpecMD，这是一个用于评估专家混合（MoE）模型缓存策略的新框架。他们的实验表明，由于专家访问模式不一致，像最近最少使用（LRU）这样的传统缓存假设对 MoE 模型无效。为了解决这个问题，他们提出了一种名为“最不陈旧”（Least-Stale）的新型驱逐策略，该策略利用可预测的专家访问来显著减少缓存未命中并提高推理速度。
RESEARCH · CL_05173 · Apr 27 · 04:00

新的基于机器学习的GPU缓存算法LCR提升LLM推理速度

研究人员开发了一种名为学习增强LRU (LALRU) 的新GPU缓存算法，旨在提高AI推理期间的效率。该算法将学习到的预测与缓存策略相结合，以确保在预测准确时接近最优，并在预测不准确时限制性能下降。基于LALRU的一个实际实现LCR，在LLM工作负载中表现出显著的改进，将P99首个令牌时间缩短了高达28.3%，并将DLRM工作负载的吞吐量提高了高达24.2%。
RESEARCH · CL_03019 · Apr 21 · 11:26

基于忆阻器的AI系统在高效学习和神经形态计算方面展现出潜力

研究人员正在探索自组织忆阻网络（SOMNs）作为人工智能的传统硬件的物理替代方案，旨在实现节能、类脑的持续学习。这些网络利用纳米级电阻式存储器元件的独特动力学来执行计算。最近的工作表明，它们在图像分类方面具有高精度和对器件变化的鲁棒性，并在时间序列分类方面表现出色，优于传统的基于梯度的模型，同时大大缩短了训练时间。

KV 缓存驱逐保护比评分更重要

Looped SSMs 通过深度递归提升时间序列分类性能

Apple 研究人员发布 SpecMD 以加速 MoE 模型推理

新的基于机器学习的GPU缓存算法LCR提升LLM推理速度

基于忆阻器的AI系统在高效学习和神经形态计算方面展现出潜力