实体 ArenaHard

ArenaHard

PulseAugur coverage of ArenaHard — every cluster mentioning ArenaHard across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_68138 · Jun 2 · 17:53

QUBRIC框架联合设计查询和评分标准以实现高级强化学习

研究人员推出QUBRIC，一个旨在通过联合设计查询和评分标准来改进强化学习（RL）的新框架。该方法解决了评分标准质量受限于固定查询结构的瓶颈。QUBRIC将开放式查询重写为可评估的问题，并根据教师策略差距生成评分标准，保留信息丰富的配对用于训练。该框架在ArenaHard基准测试上展示了5.5个点的提升，并在法律、道德和叙事推理任务上显示出显著改进。
RESEARCH · CL_10517 · Apr 30 · 10:24

IBM 新推出的 8B Granite 4.1 模型性能超越了旧款 32B MoE 版本

IBM 发布了 Granite 4.1，这是一个专为企业设计的开源语言模型家族，包含三种尺寸（3B、8B 和 30B 参数）。值得注意的是，在 ArenaHard 和 GSM8K 等多项基准测试中，8B 密集模型表现出的性能与之前的 32B MoE 模型相当甚至更优。这一改进归功于 IBM 对数据质量的关注以及涉及 15 万亿 token 和迭代数据混合调整的复杂多阶段训练过程。
RESEARCH · CL_44017 · Apr 17 · 00:00

新的DPO方法通过自适应技术增强LLM对齐

研究人员在直接偏好优化（DPO）方面取得了几项进展，DPO是一种用于将大型语言模型（LLM）与人类偏好对齐的方法。AdaDPO引入了自适应系数来平衡梯度更新，提高了效率并减轻了长度偏差，在基准测试中表现优于标准DPO。Uni-DPO提供了一个统一的动态框架，根据数据质量和模型性能自适应地重新加权样本，在各种任务上取得了优于Claude 3 Opus的卓越结果。此外，AttentionPO利用LLM自身的注意力机制来加权token，使其…

QUBRIC框架联合设计查询和评分标准以实现高级强化学习

IBM 新推出的 8B Granite 4.1 模型性能超越了旧款 32B MoE 版本

新的DPO方法通过自适应技术增强LLM对齐