PulseAugur
实时 00:13:39
实体 Complexity Ceiling Benchmark

Complexity Ceiling Benchmark

PulseAugur coverage of Complexity Ceiling Benchmark — every cluster mentioning Complexity Ceiling Benchmark across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_117481 ·

    新基准揭示LLM在深度扩展下面临推理衰减

    研究人员引入了复杂性天花板基准(CCB),以评估语言模型在任务深度增加时序列推理能力如何下降。在涉及五个前沿和开源LLM的六千次试验中,该基准显示随着序列步骤的增加,性能呈一致的几何衰减。虽然顶级模型在多达50个步骤的空间状态跟踪和符号操作任务上保持高准确率,但在传递关系推理任务上的表现却急剧下降,最好的模型在约4.7个步骤时仅达到50%的成功率。研究还发现,很大一部分正确答案是通过不正确的中间推理获得的,并且推理首次出现分歧的平均步…