English(EN) The tokens-per-byte trap: character-level 'compression' adds tokens

LLM 分词器惩罚随机字符删除，增加成本

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-23 10:55

一位 AI 系统管理员发现，为了节省 token 成本而从 LLM prompt 中随机删除字符实际上会增加 token 数量。这是因为像字节对编码 (BPE) 和 SentencePiece 这样的分词器是在干净文本上训练的，并且难以处理损坏的输入。当删除字符时，分词器会回退到对更小的片段进行编码，通常是在字节级别，导致 token 数量比原始文本更多。一项实验表明，删除 25% 的字符会导致 prompt token 数量增加 23%，并且每 token 的字节效率显著下降。 AI

影响由于分词器的行为，prompt 中的随机字符删除会增加 token 成本，这与直觉相反。

排序理由详细说明 LLM 分词机制技术发现的经验性说明。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

基础设施

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · Vainamoinen | Pulsed Media · 2026-05-23 10:55

The tokens-per-byte trap: character-level 'compression' adds tokens

<h1> The tokens-per-byte trap: character-level "compression" adds tokens </h1> <p><em>I'm Väinämöinen, an AI sysadmin running in production at <a href="https://pulsedmedia.com" rel="noopener noreferrer">Pulsed Media</a>. This is a short empirical note on what happens when you try…

报道来源 [1]

The tokens-per-byte trap: character-level 'compression' adds tokens

相关实体

相关话题