研究人员开发了新的方法来改进大语言模型(LLMs)的强化学习(RL),重点关注数据调度和策展。一种方法是自适应数据调度(ADS),它将训练数据组织成语义集群,并自适应地采样策略边界数据,在推理基准测试上带来了5.2%的准确率提升。另一种以数据为中心的方法使用了一个包含约14,000个示例的精选数据集,涵盖检索、综合和推理任务,在长上下文基准测试上取得了显著的提升,并改善了代理任务的性能。 AI
影响 这些以数据为中心的方法有望增强LLMs的推理能力,特别是在长上下文任务和代理应用方面,可能带来更有效的AI代理。
排序理由 该集群包含两篇学术论文,详细介绍了通过数据调度和策展改进LLM强化学习的新颖方法。
在 Hugging Face Daily Papers 阅读 →
- Adaptive Data Scheduling
- Group Relative Policy Optimization
- Grpo
- large-language models
- reinforcement learning
- BrowseComp
- Qwen3-4B/8B/30B-A3B
AI 生成摘要 · Google Gemini · 来自 5 个来源。 我们如何撰写摘要 →