PulseAugur
实时 15:36:38
English(EN) Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM

新研究助力移动设备上的 LLM 更快、更高效

研究人员开发了在移动设备上部署大型语言模型的新方法,重点关注降低延迟和内存使用。其中一种方法 MobileLLM-Flash 使用硬件在环架构搜索和注意力跳过,创建可在标准移动运行时上部署的高效模型。另一个框架将应用程序特定的 LoRA 集成到单个冻结推理图中,从而实现动态任务切换和多流解码,以在 Samsung Galaxy S24 和 S25 等设备上更快地生成响应。 AI

影响 设备端 LLM 效率的进步可能会加速生成式 AI 在移动应用程序和边缘计算中的集成。

排序理由 该集群包含两篇 arXiv 论文,详细介绍了关于设备端 LLM 设计和加速的新颖研究。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新研究助力移动设备上的 LLM 更快、更高效

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Hanxian Huang, Igor Fedorov, Andrey Gromov, Bernard Beckerman, Naveen Suda, David Eriksson, Maximilian Balandat, Rylan Conway, Patrick Huber, Chinnadhurai Sankar, Ayushi Dalmia, Zechun Liu, Lemeng Wu, Tarek Elgamal, Adithya Sagar, Vikas Chandra, Raghurama ·

    MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale Deployment

    arXiv:2603.15954v2 Announce Type: replace Abstract: Real-time AI experiences call for on-device large language models (OD-LLMs) optimized for efficient deployment on resource-constrained hardware. The most useful OD-LLMs produce near-real-time responses and exhibit broad hardware…

  2. arXiv cs.CL TIER_1 English(EN) · Sravanth Kodavanti, Sowmya Vajrala, Srinivas Miriyala, Utsav Tiwari, Uttam Kumar, Utkarsh Kumar Mahawar, Achal Pratap Singh, Arya D, Narendra Mutyala, Vikram Nelvoy Rajendiran, Sharan Kumar Allur, Euntaik Lee, Dohyoung Kim, HyeonSu Lee, Gyusung Cho, JungB ·

    Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM

    arXiv:2604.18655v2 Announce Type: replace-cross Abstract: Deploying large language models (LLMs) on smartphones poses significant engineering challenges due to stringent constraints on memory, latency, and runtime flexibility. In this work, we present a hardware-aware framework f…