研究人员开发了在移动设备上部署大型语言模型的新方法,重点关注降低延迟和内存使用。其中一种方法 MobileLLM-Flash 使用硬件在环架构搜索和注意力跳过,创建可在标准移动运行时上部署的高效模型。另一个框架将应用程序特定的 LoRA 集成到单个冻结推理图中,从而实现动态任务切换和多流解码,以在 Samsung Galaxy S24 和 S25 等设备上更快地生成响应。 AI
影响 设备端 LLM 效率的进步可能会加速生成式 AI 在移动应用程序和边缘计算中的集成。
排序理由 该集群包含两篇 arXiv 论文,详细介绍了关于设备端 LLM 设计和加速的新颖研究。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →