PulseAugur
实时 01:59:17
实体 Correlation-Regularized Group Policy Optimization (CorR-PO)

Correlation-Regularized Group Policy Optimization (CorR-PO)

PulseAugur coverage of Correlation-Regularized Group Policy Optimization (CorR-PO) — every cluster mentioning Correlation-Regularized Group Policy Optimization (CorR-PO) across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_38318 ·

    新方法探究大型语言模型的内部推理

    研究人员提出了一种名为熵梯度反演(Entropy-Gradient Inversion)的方法,用于分析大型语言模型的内部推理机制。该技术识别出一种几何指纹,将词元熵与logit梯度相关联,这与模型的推理能力有关。为了利用这一点,他们开发了相关性正则化分组策略优化(CorR-PO),这是一种将反演签名纳入奖励正则化的强化学习方法,并在推理基准测试中展示了改进的性能。