实体 LLM Serving

LLM Serving

PulseAugur coverage of LLM Serving — every cluster mentioning LLM Serving across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_72499 · Jun 4 · 14:57

新系统应对LLM长上下文服务瓶颈

两篇新研究论文介绍了管理KV缓存的新方法，KV缓存是在服务具有长上下文的大型语言模型时的关键瓶颈。RedKnot提出了一种头感知的KV缓存管理系统，该系统根据注意力头的注意力和有效范围对缓存进行分解，从而提高资源效率和可扩展性。TokenMizer将对话历史建模为图结构知识图，通过保留关系结构实现了显著的令牌经济和更高的决策召回率。