PulseAugur
实时 06:36:49
实体 Taihang Zhen

Taihang Zhen

PulseAugur coverage of Taihang Zhen — every cluster mentioning Taihang Zhen across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_117688 ·

    新方法惩罚冗余,使大语言模型推理更高效

    研究人员开发了一种新颖的方法,通过惩罚其思维链(CoT)追踪中的内部和外部冗余来减少大型推理模型(LRM)的“过度思考”。这种双重惩罚强化学习框架分别解决了第一个正确答案之前的信��停滞和之后的冗余延续问题。在GSM8K和MATH500等基准测试上的实验表明,推理长度显著缩短,在1.5B模型上最多可减少41.3%,同时保持了具有竞争力的准确性并提高了整体效率。该方法还显示出对GPQA和LiveCodeBench等域外任务的可迁移性,为…