English(EN) Tokens per Word: GPT-5 vs Claude vs GPT-4, Measured Across 7 Languages

LLM token 成本因语言和数据类型而异

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 20:32

一项新的分析显示，在使用大型语言模型时，不同语言和数据类型的 token 成本存在显著差异。研究发现，在 GPT-5 上，西班牙语文本的成本可能比英语高出 30%，这比 GPT-4 有了显著改进。尽管价格差异较小，但 Claude 的 Opus 模型每英文单词的成本大约是其 Sonnet 模型的 2.5 倍。值得注意的是，CSV 数据被证明是最昂贵的格式，每字符的 token 数远高于英语散文，而使用 GPT-5 的新分词器对代码分词没有改进。 AI

影响了解 token 成本对于优化 LLM 使用和管理费用至关重要，尤其是在多语言应用程序和结构化数据处理方面。

排序理由该集群包含一项关于跨语言和数据类型测量 LLM token 成本的详细分析和方法，类似于一篇研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · SAVI · 2026-06-10 20:32

Token per Word：GPT-5 对比 Claude 对比 GPT-4，跨越 7 种语言的测量

<p>Most token-cost guides repeat the same rule of thumb: one token is about three quarters of an English word. That figure is roughly right for English on a modern tokenizer, and increasingly wrong for everything else. Published numbers are surprisingly thin, so we measured it.</…

报道来源 [1]

Token per Word：GPT-5 对比 Claude 对比 GPT-4，跨越 7 种语言的测量

相关实体

相关话题