实体 Correlation-Regularized Group Policy Optimization (CorR-PO)

Correlation-Regularized Group Policy Optimization (CorR-PO)

PulseAugur coverage of Correlation-Regularized Group Policy Optimization (CorR-PO) — every cluster mentioning Correlation-Regularized Group Policy Optimization (CorR-PO) across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_38318 · May 18 · 02:41

新方法探究大型语言模型的内部推理

研究人员提出了一种名为熵梯度反演（Entropy-Gradient Inversion）的方法，用于分析大型语言模型的内部推理机制。该技术识别出一种几何指纹，将词元熵与logit梯度相关联，这与模型的推理能力有关。为了利用这一点，他们开发了相关性正则化分组策略优化（CorR-PO），这是一种将反演签名纳入奖励正则化的强化学习方法，并在推理基准测试中展示了改进的性能。

新方法探究大型语言模型的内部推理