PulseAugur
实时 11:14:32
English(EN) Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

移动NPU实现能效型端侧RAG

研究人员开发了一个能效型的检索增强生成(RAG)流水线,该流水线完全在移动神经网络处理单元(NPU)上运行,特别是高通公司在Snapdragon X Elite中发现的Hexagon NPU。该系统在索引和查询处理的速度、能耗和延迟方面,显著优于CPU和GPU基线。评估表明,NPU加速的RAG在答案质量方面与CPU和GPU方法相当,为私密、低延迟和可持续的端侧AI应用提供了可行的途径。 AI

影响 在不牺牲质量的情况下,在边缘设备上实现实用、私密且低延迟的AI应用。

排序理由 该集群包含一篇研究论文,详细介绍了使用移动NPU的端侧RAG的新系统设计和基准测试。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Zhiyuan Cheng, Longying Lai ·

    Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

    arXiv:2606.11257v1 Announce Type: new Abstract: Retrieval-Augmented Generation (RAG) pipelines are compute-intensive, combining embedding, retrieval, reranking, and large language model (LLM) generation. Running them entirely on-device benefits privacy, latency, and offline use, …