PulseAugur
实时 19:00:29
English(EN) Entropy Centroids as Intrinsic Rewards for Test-Time Scaling

新方法使用熵质心作为 LLM 测试时扩展的内在奖励

研究人员引入了一种名为“最低质心”的新颖方法,以改进推理过程中从大型语言模型中选择高质量响应。该技术利用模型不确定性的时间结构(由“高熵阶段”(HEPs)表示)来计算每个生成响应的“熵质心”。通过选择熵质心最低的响应(这标志着早期探索后自信生成),该方法在各种任务和模型大小(从 14B 到 480B 参数)上都显示出一致的性能提升。 AI

影响 为 LLM 推理引入了一种新的内在奖励机制,有可能在没有外部奖励模型的情况下提高响应质量。

排序理由 该集群包含一篇 arXiv 预印本,详细介绍了一种改进 LLM 推理的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新方法使用熵质心作为 LLM 测试时扩展的内在奖励

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Wenshuo Zhao, Qi Zhu, Xingshan Zeng, Fei Mi, Lifeng Shang, Yiren Feng ·

    Entropy Centroids as Intrinsic Rewards for Test-Time Scaling

    arXiv:2604.26173v1 Announce Type: cross Abstract: An effective way to scale up test-time compute of large language models is to sample multiple responses and then select the best one, as in Grok Heavy and Gemini Deep Think. Existing selection methods often rely on external reward…

  2. arXiv cs.CL TIER_1 English(EN) · Yiren Feng ·

    Entropy Centroids as Intrinsic Rewards for Test-Time Scaling

    An effective way to scale up test-time compute of large language models is to sample multiple responses and then select the best one, as in Grok Heavy and Gemini Deep Think. Existing selection methods often rely on external reward models, which requires training a strong reward m…