PulseAugur
实时 05:19:51
实体 ALFWorld

ALFWorld

PulseAugur coverage of ALFWorld — every cluster mentioning ALFWorld across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
4
90 天内 4
发布 · 30天
0
90 天内 0
论文 · 30天
4
90 天内 4
层级分布 · 90 天
情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 4 条
  1. TOOL · CL_44996 ·

    HölderPO 将 Hölder 均值统一用于 LLM 策略优化

    研究人员推出了一种新颖的框架 HölderPO,通过统一 Hölder 均值的 token 级概率聚合来优化大型语言模型。该方法为梯度集中和方差之间的权衡提供了持续控制,解决了固定聚合机制可能导致训练崩溃或性能不佳的局限性。采用动态退火算法在训练生命周期中调度 Hölder 均值参数,展示了卓越的稳定性和收敛性。大量评估表明,HölderPO 在数学基准测试中达到了最先进的准确率,并在 ALFWorld 上取得了高成功率。

  2. RESEARCH · CL_41839 ·

    New framework allows language agents to learn from experience

    Researchers have developed a new framework called In-context Training (ICT) to enable language agents to learn and improve from past experiences across different tasks. This approach trains a "reflector" model to genera…

  3. RESEARCH · CL_27737 ·

    New RL methods boost LLM reasoning and efficiency

    Two new research papers introduce novel reinforcement learning techniques for enhancing language model reasoning. The first, GAGPO, proposes a critic-free method for precise temporal credit assignment in multi-turn envi…

  4. RESEARCH · CL_16305 ·

    新基准和方法应对 AI 代理的记忆限制

    研究人员正在开发新的基准和方法来评估和改进 AI 代理的记忆能力。这些努力解决了当前系统在长期回忆、记忆干扰以及对复杂、不断变化的信息进行推理方面的局限性。新的基准,如 LongMINT、EvoMemBench 和 SocialMemBench,正在被引入,以在更现实的场景中测试代理,包括社交环境和多模态数据。此外,还提出了 FORGE、RecMem、DimMem、H-Mem 和 MeMo 等新颖的记忆架构,以提高效率、降低代币成本并…