实体 SAGE-OPD

SAGE-OPD

PulseAugur coverage of SAGE-OPD — every cluster mentioning SAGE-OPD across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_99663 · Jun 17 · 23:58

新的SAGE-OPD框架增强了多轮LLM智能体训练

研究人员开发了SAGE-OPD，一种用于多轮按策略蒸馏（OPD）的新型框架，旨在改进语言模型智能体的训练。与之前专注于单轮设置的方法不同，SAGE-OPD通过基于教师判断和置信度选择性地干预学生响应，解决了多轮交互中累积错误的问题。实验表明，SAGE-OPD取得了显著的改进，包括在ALFWorld基准测试上成功率相对提高高达13.3%。