研究人员开发了 FlexServe,一个旨在提高移动设备上大型语言模型 (LLM) 推理速度和安全性的新型系统。通过利用 ARM TrustZone 技术,FlexServe 为内存 (Flex-Mem) 和神经网络处理单元 (Flex-NPU) 引入了灵活的资源隔离,允许在受保护和非受保护模式之间高效切换。与现有方法相比,这种方法显著降低了 TrustZone 通常带来的开销,在首次令牌生成时间 (TTFT) 和多模型工作流的端到端性能方面实现了大幅提速。 AI
影响 该系统可以在用户设备上直接实现更强大、更私密的 LLM 应用,减少对云基础设施的依赖。
排序理由 该集群描述了一篇关于移动设备 LLM 服务系统的新研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →