实体 AlpacaEval 2.0

AlpacaEval 2.0

PulseAugur coverage of AlpacaEval 2.0 — every cluster mentioning AlpacaEval 2.0 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_82101 · Jun 9 · 07:57

新方法利用奖励模型状态以获得更好的AI反馈

研究人员开发了一种名为表征感知优势估计（GraphAE）的新方法，该方法增强了来自人类反馈的强化学习（RLHF）。该技术利用奖励模型隐藏状态中编码的更丰富信息，而不是仅仅使用标量奖励，来改进优势估计。通过将响应组视为图并使用图传播，GraphAE 整合了来自相似响应的上下文信息，从而实现了更具样本效率和鲁棒性的 RLHF。
TOOL · CL_65368 · Jun 2 · 04:00

新的S-SPPO框架增强了大型语言模型与人类偏好的对齐

研究人员推出了一种名为S-SPPO的新框架，旨在提高大型语言模型与人类偏好的对齐度。该方法通过引入语义校准来解决先前自玩偏好优化技术中的不稳定性问题。S-SPPO利用监督校准根据语义重叠调整胜率目标，并利用表示校准来维持模型输出的多样性，理论上确保收敛到纳什均衡。在实践中，S-SPPO在AlpacaEval 2.0基准测试中使用Llama-3-8B模型，表现出性能提升，在无需额外人工标注偏好的情况下获得了更高的胜率。