PulseAugur
实时 07:16:07
实体 ArenaHard

ArenaHard

PulseAugur coverage of ArenaHard — every cluster mentioning ArenaHard across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_10517 ·

    IBM 新推出的 8B Granite 4.1 模型性能超越了旧款 32B MoE 版本

    IBM 发布了 Granite 4.1,这是一个专为企业设计的开源语言模型家族,包含三种尺寸(3B、8B 和 30B 参数)。值得注意的是,在 ArenaHard 和 GSM8K 等多项基准测试中,8B 密集模型表现出的性能与之前的 32B MoE 模型相当甚至更优。这一改进归功于 IBM 对数据质量的关注以及涉及 15 万亿 token 和迭代数据混合调整的复杂多阶段训练过程。

  2. RESEARCH · CL_44017 ·

    新的TwDPO方法利用LLM注意力实现更好的偏好对齐

    研究人员推出了一种名为Token加权直接偏好优化(TwDPO)的新方法,用于将大型语言模型与人类偏好对齐。与标准的DPO不同,TwDPO为响应中的单个token分配不同的重要性权重。提出的实现AttentionPO利用LLM自身的注意力机制动态估计这些token权重,使过程具有内容感知性和效率。实验表明,与现有的偏好优化技术相比,AttentionPO在AlpacaEval和MT-Bench等基准测试中显著提高了性能。