Tokenization drift 发生于输入文本的微小格式更改(例如空格或换行符)导致模型生成不同的 token ID。这会引起模型行为的不可预测的变化,因为模型处理的是它未优化的输入。文章使用 GPT-2 tokenizer 演示了这一现象,展示了前导空格如何改变单词的 token ID 甚至其序列长度。文章提出了一种衡量此 drift 的方法,并实现了一个优化循环以确保一致可靠的提示格式。 AI
影响 强调了提示工程中一个微妙但关键的因素,该因素会显著影响模型的性能和可靠性。
排序理由 文章详细介绍了 tokenization drift 的技术问题,并提出了一种测量和修复它的方法,并附有代码示例。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →