English(EN) Has Anyone Measured How LLM Output Quality Degrades Across Multiple Compactions?

观察到LLM上下文压缩质量退化曲线，缺乏基准测试

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 18:49

一位用户观察到，像DeepSeek V4和Claude Code这样的LLM，在重复进行上下文压缩后，输出质量并非线性下降。相反，在第二次压缩后似乎会出现短暂的改善，随后才出现下降。该用户搜索了测量这种多轮压缩退化的现有基准测试，但没有找到专门针对这种现象的测试，现有的测试侧重于静态输入长度或单轮漂移。如果这种“压缩曲线”是真实存在的，它可能会告知用户何时重置会话，并为比较LLM提供商提供一个新的维度，但目前主要的基准测试套件缺乏这一指标。 AI

影响可能导致评估LLM会话持久性的新方法，并为长上下文模型的最佳使用模式提供信息。

排序理由用户观察和呼吁社区收集关于LLM行为的数据，而非正式发布或研究论文。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · YuhaoLin2005 · 2026-06-26 18:49

是否有人测量过大型语言模型输出质量在多次压缩后的下降程度？

<h2> The Observation </h2> <p>After ~70 sessions with DeepSeek V4 (1M context), I noticed something odd. When Claude Code compacts my session, output quality doesn't just go down linearly. There's a moment — usually after the second compaction — where the model briefly gets <em>b…

报道来源 [1]

是否有人测量过大型语言模型输出质量在多次压缩后的下降程度？

相关实体

相关话题