PulseAugur
实时 21:40:20
English(EN) E2LLM: Towards Efficient LLM Serving in Heterogeneous Edge/Fog Environments

E2LLM框架优化边缘/雾环境中的LLM服务

研究人员开发了E2LLM,一个在资源受限的边缘和雾环境中高效部署大型语言模型(LLMs)的新框架。与假设单设备托管的传统方法不同,E2LLM将模型复制到设备组中并使用模型并行。它根据副本在输入/输出令牌上的效率,为副本分配专门的角色(PREFILL或DECODER),利用这些推理阶段之间的差异。该框架采用遗传算法进行设备聚类和动态规划进行最优分区,与Splitwise基线相比,在高需求下等待时间显著减少了50%以上。 AI

影响 优化了在受限环境中的LLM部署,可能使AI在边缘设备上的应用更加广泛。

排序理由 该集群包含一篇详细介绍LLM部署新框架的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Truong-Thanh Le, Amir Taherkordi, Hoang-Loc La, Frank Eliassen, Phuong Hoai Ha, Peiyuan Guan ·

    E2LLM:面向异构边缘/雾计算环境的高效LLM服务

    arXiv:2606.03770v1 Announce Type: cross Abstract: Large Language Models (LLMs) have become integral to modern applications, yet their deployment remains challenging. Beyond executing the models themselves, practical deployment must address cost efficiency, low latency, and optima…

  2. arXiv cs.AI TIER_1 English(EN) · Peiyuan Guan ·

    E2LLM:面向异构边缘/雾计算环境的高效LLM服务

    Large Language Models (LLMs) have become integral to modern applications, yet their deployment remains challenging. Beyond executing the models themselves, practical deployment must address cost efficiency, low latency, and optimal resource utilization. Conventional approaches ty…