PulseAugur
实时 22:35:36
English(EN) AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

AgentHER框架通过失败轨迹重标记提升LLM代理训练

研究人员开发了AgentHER,一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放(Hindsight Experience Replay)应用于自然语言,识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料,显著提高了各种模型规模下代理的性能和数据效率。 AI

影响 通过利用失败轨迹提高了LLM代理训练效率,有望在复杂的现实世界任务中提升性能。

排序理由 介绍LLM代理训练新框架的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

AgentHER框架通过失败轨迹重标记提升LLM代理训练

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Liang Ding ·

    AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

    arXiv:2603.21357v3 Announce Type: replace-cross Abstract: LLM agents fail on the majority of real-world tasks -- GPT-4o succeeds on fewer than 15% of WebArena navigation tasks and below 55% pass@1 on ToolBench (Zhou et al., 2024; Qin et al., 2024) -- yet every failed trajectory i…