实体 Qin et al.

Qin et al.

PulseAugur coverage of Qin et al. — every cluster mentioning Qin et al. across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_06733 · Apr 28 · 04:00

AgentHER框架通过失败轨迹重标记提升LLM代理训练

研究人员开发了AgentHER，一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放（Hindsight Experience Replay）应用于自然语言，识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料，显著提高了各种模型规模下代理的性能和数据效率。