PulseAugur
实时 04:25:21
实体 BigBench

BigBench

PulseAugur coverage of BigBench — every cluster mentioning BigBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. COMMENTARY · CL_112783 ·

    观察到LLM上下文压缩质量退化曲线,缺乏基准测试

    一位用户观察到,像DeepSeek V4和Claude Code这样的LLM,在重复进行上下文压缩后,输出质量并非线性下降。相反,在第二次压缩后似乎会出现短暂的改善,随后才出现下降。该用户搜索了测量这种多轮压缩退化的现有基准测试,但没有找到专门针对这种现象的测试,现有的测试侧重于静态输入长度或单轮漂移。如果这种“压缩曲线”是真实存在的,它可能会告知用户何时重置会话,并为比较LLM提供商提供一个新的维度,但目前主要的基准测试套件缺乏这一指标。