PulseAugur
实时 08:52:11
实体 Andrychowicz et al.

Andrychowicz et al.

PulseAugur coverage of Andrychowicz et al. — every cluster mentioning Andrychowicz et al. across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_06733 ·

    AgentHER框架通过失败轨迹重标记提升LLM代理训练

    研究人员开发了AgentHER,一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放(Hindsight Experience Replay)应用于自然语言,识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料,显著提高了各种模型规模下代理的性能和数据效率。