实体 Adaptive Computation Allocation

Adaptive Computation Allocation

PulseAugur coverage of Adaptive Computation Allocation — every cluster mentioning Adaptive Computation Allocation across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
模型发布 1

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_36565 · May 15 · 01:57

新的分布过程奖励模型预测奖励可靠性以获得更好的推理

研究人员开发了BetaPRM，一种新的分布过程奖励模型，它不仅预测推理步骤的成功概率，还预测该预测的可靠性。这种方法使用Beta信念来解释观察到的续写，提供了比输出单一奖励分数的传统PRM更细致的信号。学习到的可靠性允许下游应用程序区分可信和不确定的奖励，从而实现更有效的计算分配。

新的分布过程奖励模型预测奖励可靠性以获得更好的推理