研究人员开发了xGR,一个旨在提高生成式推荐(GR)服务效率和速度的新系统。GR系统利用大型语言模型(LLMs)通过分析用户-物品交互的长序列来增强用户推荐。提出的xGR系统通过优化预填充和解码阶段,解决了GR独特的计算需求,这些需求与标准的LLM服务不同。它引入了提前排序终止、基于掩码的物品过滤和多级并行等技术,以实现更低的延迟和更高的吞吐量,实验证明其性能比现有方法提高了2.89倍。 AI
影响 优化了推荐系统的LLM服务,可能带来更快、更个性化的用户体验。
排序理由 该集群包含一篇详细介绍生成式推荐服务新系统的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →