English(EN) AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

AgentHER框架通过失败轨迹重标记提升LLM代理训练

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了AgentHER，一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放（Hindsight Experience Replay）应用于自然语言，识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料，显著提高了各种模型规模下代理的性能和数据效率。 AI

影响通过利用失败轨迹提高了LLM代理训练效率，有望在复杂的现实世界任务中提升性能。

排序理由介绍LLM代理训练新框架的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Liang Ding · 2026-04-28 04:00

AgentHER：用于LLM代理轨迹重新标记的滞后经验回放

arXiv:2603.21357v3 Announce Type: replace-cross Abstract: LLM agents fail on the majority of real-world tasks -- GPT-4o succeeds on fewer than 15% of WebArena navigation tasks and below 55% pass@1 on ToolBench (Zhou et al., 2024; Qin et al., 2024) -- yet every failed trajectory i…

报道来源 [1]

AgentHER：用于LLM代理轨迹重新标记的滞后经验回放

相关实体

相关话题