English(EN) Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction

Google AI 通过新的多令牌预测方法加速设备端 LLM

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 18:30

Google AI 开发了一种新方法来加速设备端大型语言模型（LLM），例如 Gemini Nano 和 Gemma，特别适用于 Google Pixel 手机。这种称为多令牌预测（MTP）的技术，将一个草稿头附加到现有的、冻结的模型上。这使得模型能够同时生成多个令牌，绕过了传统的逐个令牌的瓶颈，并在无需单独、内存密集型的草稿模型的情况下，显著提高了推理速度和能源效率。 AI

影响该方法显著提高了设备端 AI 功能的速度和效率，有可能加速先进 LLM 功能在移动平台上的普及。

排序理由该条目描述了一种在边缘设备上加速 LLM 的新方法，详细介绍了架构更改及其优势，属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]

在 Google AI / Research 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Google AI / Research TIER_1 English(EN) · 2026-06-26 18:30

Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction

Machine Intelligence

报道来源 [1]

Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction

相关实体

相关话题