研究人员推出了一种名为Active-GRPO的新方法,旨在增强大型语言模型在科学任务(特别是分子优化)中的推理能力。该方法通过结合自适应模仿和自改进策略,解决了现有监督微调和强化学习等训练技术的局限性。Active-GRPO动态决定是遵循现有参考还是通过强化学习进行自我发现,并持续升级自身的模仿目标以提高性能。 AI
影响 这项研究可能带来更强大、更高效的LLM,以促进科学发现和解决复杂问题。
排序理由 该集群包含一篇详细介绍改进LLM推理新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →