实体 RVPO

RVPO

PulseAugur coverage of RVPO — every cluster mentioning RVPO across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_21935 · May 8 · 00:00

苹果的RVPO框架通过惩罚奖励方差来增强LLM对齐

研究人员推出了一种名为奖励-方差策略优化（RVPO）的新型框架，旨在提高大型语言模型与多个目标的一致性。与现有平均奖励的方法不同，RVPO惩罚不同奖励信号之间的方差，从而促进一致性并防止关键约束被忽略。该方法在涉及医学和科学推理以及工具调用的任务上进行了评估，在HealthBench等基准测试中表现出改进的性能，并在GPQA-Diamond上保持了准确性。