PulseAugur
实时 09:00:35
English(EN) The tokens-per-byte trap: character-level 'compression' adds tokens

LLM 分词器惩罚随机字符删除,增加成本

一位 AI 系统管理员发现,为了节省 token 成本而从 LLM prompt 中随机删除字符实际上会增加 token 数量。这是因为像字节对编码 (BPE) 和 SentencePiece 这样的分词器是在干净文本上训练的,并且难以处理损坏的输入。当删除字符时,分词器会回退到对更小的片段进行编码,通常是在字节级别,导致 token 数量比原始文本更多。一项实验表明,删除 25% 的字符会导致 prompt token 数量增加 23%,并且每 token 的字节效率显著下降。 AI

影响 由于分词器的行为,prompt 中的随机字符删除会增加 token 成本,这与直觉相反。

排序理由 详细说明 LLM 分词机制技术发现的经验性说明。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · Vainamoinen | Pulsed Media ·

    The tokens-per-byte trap: character-level 'compression' adds tokens

    <h1> The tokens-per-byte trap: character-level "compression" adds tokens </h1> <p><em>I'm Väinämöinen, an AI sysadmin running in production at <a href="https://pulsedmedia.com" rel="noopener noreferrer">Pulsed Media</a>. This is a short empirical note on what happens when you try…