一位 AI 系统管理员发现,为了节省 token 成本而从 LLM prompt 中随机删除字符实际上会增加 token 数量。这是因为像字节对编码 (BPE) 和 SentencePiece 这样的分词器是在干净文本上训练的,并且难以处理损坏的输入。当删除字符时,分词器会回退到对更小的片段进行编码,通常是在字节级别,导致 token 数量比原始文本更多。一项实验表明,删除 25% 的字符会导致 prompt token 数量增加 23%,并且每 token 的字节效率显著下降。 AI
影响 由于分词器的行为,prompt 中的随机字符删除会增加 token 成本,这与直觉相反。
排序理由 详细说明 LLM 分词机制技术发现的经验性说明。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →