研究人员开发了AgentHER,一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放(Hindsight Experience Replay)应用于自然语言,识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料,显著提高了各种模型规模下代理的性能和数据效率。 AI
影响 通过利用失败轨迹提高了LLM代理训练效率,有望在复杂的现实世界任务中提升性能。
排序理由 介绍LLM代理训练新框架的学术论文。
- AgentHER
- Andrychowicz et al.
- GPT-4o
- LLaMA-3.1-8B
- LLM
- Qin et al.
- Qwen2.5-72B
- Qwen2.5-7B
- ShareGPT
- SFT
- ToolBench
- WebArena
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →