研究人员引入了相对惊奇度指数(RSI),这是一个旨在改进大型语言模型(LLM)的可验证奖励强化学习(RLVR)的新指标。RSI 结合了 Token 熵和所选 Token 的概率,解决了先前专注于高熵或低概率 Token 的冲突方法。通过提出 RSI 选择(RSI-S),一种自适应 Token 过滤方法,研究人员在各种 Qwen2.5 模型规模的 AIME 和 AMC 等基准测试中展示了性能的提高,与 GRPO 相比,平均准确率(avg@32)提高了 2-3 个百分点。 AI
影响 引入了一种新颖的指标和过滤方法,有望提高大型语言模型(LLM)的推理能力。
排序理由 该项目是一篇学术论文,介绍了一种用于改进 LLM 推理的新指标和方法。[lever_c_demoted from research: ic=1 ai=1.0]
- AMC
- GRPO
- large-language models
- Qwen2.5-1.5B
- Qwen2.5-3B
- qwen2.5:7b
- Relative Surprisal Index
- RLVR
- RSI Selection
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →