一位用户观察到,像DeepSeek V4和Claude Code这样的LLM,在重复进行上下文压缩后,输出质量并非线性下降。相反,在第二次压缩后似乎会出现短暂的改善,随后才出现下降。该用户搜索了测量这种多轮压缩退化的现有基准测试,但没有找到专门针对这种现象的测试,现有的测试侧重于静态输入长度或单轮漂移。如果这种“压缩曲线”是真实存在的,它可能会告知用户何时重置会话,并为比较LLM提供商提供一个新的维度,但目前主要的基准测试套件缺乏这一指标。 AI
影响 可能导致评估LLM会话持久性的新方法,并为长上下文模型的最佳使用模式提供信息。
排序理由 用户观察和呼吁社区收集关于LLM行为的数据,而非正式发布或研究论文。
- BigBench
- Claude Code
- Claude Opus
- Compression Laws for Large Language Models
- Context Rot
- DeepSeek V4
- Gemini
- GPT-5
- MMLU
- RULER
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →