PulseAugur
实时 12:20:58
实体 LLM Serving

LLM Serving

PulseAugur coverage of LLM Serving — every cluster mentioning LLM Serving across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_72499 ·

    新系统应对LLM长上下文服务瓶颈

    两篇新研究论文介绍了管理KV缓存的新方法,KV缓存是在服务具有长上下文的大型语言模型时的关键瓶颈。RedKnot提出了一种头感知的KV缓存管理系统,该系统根据注意力头的注意力和有效范围对缓存进行分解,从而提高资源效率和可扩展性。TokenMizer将对话历史建模为图结构知识图,通过保留关系结构实现了显著的令牌经济和更高的决策召回率。