English(EN) Kronecker Embeddings: Byte-Level Structured Token Representations for Parameter-Efficient Language Models

Kronecker Embeddings 削减语言模型参数，提升性能

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-29 04:00

研究人员开发了 Kronecker Embeddings，一种表示语言模型中标记的新颖方法，可显著减少可训练参数的数量。该方法用固定的编码器和学习到的投影替换大型嵌入表，将参数数量减少了 91-94%。实验表明，与传统的 BPE 绑定嵌入相比，Kronecker Embeddings 可带来更低的验证损失和更快的收敛速度，同时还能提高对拼写错误的鲁棒性，并通过生成保留字节级信息。 AI

影响减少语言模型的参数数量和训练时间，可能实现更高效的开发和部署。

排序理由介绍语言模型嵌入新颖技术方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Rohan Shravan · 2026-05-29 04:00

Kronecker Embeddings: Byte-Level Structured Token Representations for Parameter-Efficient Language Models

arXiv:2605.29459v1 Announce Type: new Abstract: Large language models route every input through a learned embedding table of shape |V| x d_model, consuming hundreds of millions to billions of trainable parameters at frontier scale. We introduce Kronecker Embeddings, a determinist…

报道来源 [1]

Kronecker Embeddings: Byte-Level Structured Token Representations for Parameter-Efficient Language Models

相关实体

相关话题