PulseAugur
实时 22:48:26
实体 StrategyQA

StrategyQA

PulseAugur coverage of StrategyQA — every cluster mentioning StrategyQA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_05034 ·

    新研究表明,如果不加以仔细管理,LLM 的自我修正可能会降低性能。

    一篇新研究论文引入了一个基于控制理论的框架,用于分析大型语言模型(LLM)中的迭代自我修正何时有利或有害。该研究提出了一个基于纠错率(ECR)和误差信息率(EIR)的诊断方法,以确定是否应继续优化。在七个模型和三个数据集上的实验显示,有效的自我修正需要 EIR 阈值低于 0.5%,而某些模型(如 GPT-5)在超过此阈值时性能会下降。