English(EN) SAGE-OPD: Selective Agent-Guided Intervention for Multi-Turn On-Policy Distillation

新的SAGE-OPD框架增强了多轮LLM智能体训练

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-17 23:58

研究人员开发了SAGE-OPD，一种用于多轮按策略蒸馏（OPD）的新型框架，旨在改进语言模型智能体的训练。与之前专注于单轮设置的方法不同，SAGE-OPD通过基于教师判断和置信度选择性地干预学生响应，解决了多轮交互中累积错误的问题。实验表明，SAGE-OPD取得了显著的改进，包括在ALFWorld基准测试上成功率相对提高高达13.3%。 AI

影响这项研究通过提高训练效率和减轻常见错误，可能带来更强大、更有能力的ವರೆಗೆ多轮语言模型智能体。

排序理由该集群包含一篇详细介绍AI模型训练新方法的论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Yuhang Zhou, Lizhu Zhang, Yifan Wu, Mingyi Wang, Bo Peng, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao · 2026-06-19 04:00

SAGE-OPD：用于多轮策略内蒸馏的选择性代理引导干预

arXiv:2606.19659v1 Announce Type: new Abstract: On-policy distillation (OPD) improves student models by training them on trajectories induced by their own policy, making it a promising approach for mitigating exposure bias in agent training. However, most OPD studies focus on sin…
arXiv cs.CL TIER_1 English(EN) · Zhuokai Zhao · 2026-06-17 23:58

SAGE-OPD：用于多轮策略内蒸馏的选择性代理引导干预

On-policy distillation (OPD) improves student models by training them on trajectories induced by their own policy, making it a promising approach for mitigating exposure bias in agent training. However, most OPD studies focus on single-turn settings, while realistic LLM agents in…

报道来源 [2]

SAGE-OPD：用于多轮策略内蒸馏的选择性代理引导干预

SAGE-OPD：用于多轮策略内蒸馏的选择性代理引导干预

相关实体

相关话题