r/LocalLLaMA 上的一位用户正在为 Hermes 模型寻找一个快速的本地内存检索器,特别是希望能在 NPU 上运行的。他们正在考虑 GPT OSS 20B,但发现它对于拉取记忆所需的吞吐量来说太慢了。该用户还对使用 Bonsai 1 bit 或 LFM 等小型模型优化代理子任务感兴趣,并寻求社区的意见。 AI
影响 用户正在探索优化本地 LLM 在代理子任务上的性能的方法,这表明了向更高效的设备端 AI 处理发展的趋势。
排序理由 用户正在论坛上征求建议,而不是宣布新产品或研究。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →