研究人员开发了一个能效型的检索增强生成(RAG)流水线,该流水线完全在移动神经网络处理单元(NPU)上运行,特别是高通公司在Snapdragon X Elite中发现的Hexagon NPU。该系统在索引和查询处理的速度、能耗和延迟方面,显著优于CPU和GPU基线。评估表明,NPU加速的RAG在答案质量方面与CPU和GPU方法相当,为私密、低延迟和可持续的端侧AI应用提供了可行的途径。 AI
影响 在不牺牲质量的情况下,在边缘设备上实现实用、私密且低延迟的AI应用。
排序理由 该集群包含一篇研究论文,详细介绍了使用移动NPU的端侧RAG的新系统设计和基准测试。[lever_c_demoted from research: ic=1 ai=1.0]
- Apple Neural Engine
- CPU
- GPT-4.1
- GPU
- Intel NPU
- MediaTek APU
- Qualcomm Hexagon NPU
- Retrieval-Augmented Generation
- Snapdragon X Elite
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →