研究人员开发了一个名为“Conductor”的模型,该模型通过强化学习进行训练,以协调多个大型语言模型。该 Conductor 模型学会建立通信路径并为工作模型制定具体指令,从而优化它们的协作。一个拥有 70 亿参数的 Conductor 在 LiveCodeBench 和 GPQA 等基准测试中表现出色,超越了单个模型,并取得了最先进的成果。该系统可以适应各种开源和闭源代理,甚至使用自身作为工作代理以实现递归改进。 AI
影响 引入了一种新颖的基于强化学习的方法来编排多个大型语言模型,有可能提高复杂推理任务的性能。
排序理由 这是一篇描述新颖模型架构和训练方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →