引入了一个名为STAR-PólyaMath的新型多智能体框架,以提高AI模型在数学推理方面的能力。该系统通过采用元级监督以及推理器和验证器之间的结构化交互,解决了幻觉累积和内存碎片化等问题。STAR-PólyaMath在包括AIME、Putnam和HMMT在内的八个竞赛基准测试中取得了最先进的成果,完美得分,显著优于现有基线。 AI
影响 在数学推理基准测试中设定了新的SOTA(State-of-the-Art),可能提高AI在复杂问题解决方面的能力。
排序理由 详细介绍新AI框架及其基准性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →