Google AI 开发了一种新方法来加速设备端大型语言模型(LLM),例如 Gemini Nano 和 Gemma,特别适用于 Google Pixel 手机。这种称为多令牌预测(MTP)的技术,将一个草稿头附加到现有的、冻结的模型上。这使得模型能够同时生成多个令牌,绕过了传统的逐个令牌的瓶颈,并在无需单独、内存密集型的草稿模型的情况下,显著提高了推理速度和能源效率。 AI
影响 该方法显著提高了设备端 AI 功能的速度和效率,有可能加速先进 LLM 功能在移动平台上的普及。
排序理由 该条目描述了一种在边缘设备上加速 LLM 的新方法,详细介绍了架构更改及其优势,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
- Confident Adaptive Language Modeling
- EAGLE
- Gemini Nano
- Gemma
- Google AI
- Google Pixel
- Multi Token Prediction
- Pixel 10
- Pixel 9
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →