ALFWorld · PulseAugur

新的TRACE水印确保LLM代理轨迹的来源

研究人员开发了TRACE，一种新颖的双通道水印，旨在确保LLM代理轨迹的来源。该系统能够抵御可能试图重新品牌化或替换代理的对手，因为它将水印直接嵌入到轨迹日志中。TRACE利用一个基于局部内容进行无失真动作选择的选择通道，以及一个基于日志骨架以在重写下保持不变的计数通道，从而确保即使日志被篡改也能进行归因。

RESEARCH · CL_131285 · Jul 7 · 13:49

新框架通过任务分解增强AI智能体技能选择

研究人员推出了一种名为SkillReranker的新型框架，旨在提高AI智能体的自适应技能选择能力。该系统通过将任务和技能分解为详细描述来解决技能库中的挑战，然后利用这些描述构建执行图。SkillReranker使用交叉编码器为特定任务区间评分候选技能，旨在提高性能、减少交互步骤并降低令牌消耗。在ALFWorld和ScienceWorld上使用各种LLM进行的实验证明了该方法与现有技能选择方法相比的有效性。

RESEARCH · CL_128930 · Jul 7 · 04:00

新框架CurateEvo增强LLM Agent训练后数据策展 · 追踪2个来源

研究人员开发了CurateEvo，一个用于动态演进数据策展策略的新框架，以改进大型语言模型（LLM）Agent的训练后阶段。这种由失败驱动的方法通过分析失败的轨迹来迭代地优化策展方法，从而为微调和强化学习提供更有效和高效的数据准备。在ACEBench-Agent和tau^2-Bench等基准上的实验表明，CurateEvo的性能持续优于现有的策展技术，提高了Agent的性能并降低了开销。

RESEARCH · CL_128469 · Jul 6 · 11:50

新的STAPO框架通过减少轨迹忽略来改进LLM代理训练

研究人员开发了STAPO（选择性轨迹感知策略优化），一个新颖的层次强化学习框架，旨在改进大型语言模型（LLM）代理的训练。STAPO解决了“轨迹忽略”问题，即代理因稀疏或延迟的奖励而失去对任务目标的关注。通过利用新颖的“归一化熵”指标，STAPO识别并优化与被忽略轨迹相关的异常步骤，增强了代理的意识和训练稳定性。在ALFWorld、WebShop和Search-Augmented QA基准上的实验表明，STAPO取得了最先进的性能，并…

RESEARCH · CL_128342 · Jul 6 · 00:00

TREK方法通过扩展探索支持来提升LLM推理能力

研究人员推出了一种新颖的分阶段程序TREK（Teacher-Routed Exploration via Forward KL），旨在增强语言模型的能力，特别是在复杂的推理任务中。TREK利用蒸馏并非为了直接模仿，而是为了扩展模型的探索支持，使其能够处理当前策略可能 falter 的提示。该方法在应用于Qwen3等模型时，在AIME 2024和AIME 2025等数学推理基准上显示出显著的改进，并且还提高了ALFWorld和Scien…

TOOL · CL_117675 · Jun 30 · 04:00

DuoMem 框架通过双空间蒸馏实现强大的设备端 LLM 代理

研究人员开发了 DuoMem，一个新颖的双空间蒸馏框架，旨在实现强大的设备端记忆代理。该方法将大型语言模型 (LLM) 的程序性问题解决能力转移到更小、更高效的学生模型中。DuoMem 通过在上下文空间（使用教师生成的记忆）和参数空间（通过在成功的教师轨迹上微调轻量级适配器）中蒸馏知识来实现这一点。在 ALFWorld 基准测试上的评估表明，DuoMem 显著提升了一个 4B 参数模型的性能，任务成功率达到 77.9%，并且完成任务的…

TOOL · CL_114248 · Jun 28 · 06:48

研究发现：AI代理在重写自身记忆时准确性会下降

伊利诺伊大学厄巴纳-香槟分校（UIUC）的研究人员发表的一篇新论文表明，当AI代理的记忆由大型语言模型（LLM）自身进行整合或重写时，其准确性会显著下降。该研究测试了GPT-5.4在各种环境中的表现，发现在重复的记忆整合后，其在ARC-AGI等任务上的性能从100%下降到52.6%。论文指出了导致这种性能下降的三个关键机制：选择偏差、重写漂移以及一个反馈循环，即损坏的记忆会导致进一步的错误。研究人员建议采用一种只追加（append-o…

RESEARCH · CL_111559 · Jun 25 · 07:02

SkillDisCo框架将代理轨迹蒸馏成可重用的程序性技能

研究人员开发了SkillDisCo，一个旨在将代理轨迹蒸馏和编译成可重用程序性技能的框架。该方法通过识别和表示任务实例中的共享程序结构，旨在降低冗余推理成本并缩短执行轨迹。在ALFWorld和WebArena基准上的实验表明，SkillDisCo在各种模型规模下都能提高成功率并减少代理回合数。

RESEARCH · CL_99607 · Jun 18 · 00:00

新研究探讨强化学习效率、无奖励控制和安全导航

研究人员正在探索强化学习（RL）的新方法，以提高各个领域的效率和性能。一项研究调查了编码代理RL中的“回滚基础设施税”，揭示了执行基底效率的显著差异，并建议将这些基底的优化作为训练系统的一部分。另一篇论文介绍了“Rank-Then-Act”（RTA）框架，该框架无需明确奖励即可从专家视频演示中学习控制策略，利用基于相关性的奖励函数在任务之间稳定迁移。此外，还提出了用于无人机导航的安全RL的进展，重点关注轻量级、安全约束框架，该框架集成…

RESEARCH · CL_99663 · Jun 17 · 23:58

新的SAGE-OPD框架增强了多轮LLM智能体训练

研究人员开发了SAGE-OPD，一种用于多轮按策略蒸馏（OPD）的新型框架，旨在改进语言模型智能体的训练。与之前专注于单轮设置的方法不同，SAGE-OPD通过基于教师判断和置信度选择性地干预学生响应，解决了多轮交互中累积错误的问题。实验表明，SAGE-OPD取得了显著的改进，包括在ALFWorld基准测试上成功率相对提高高达13.3%。

RESEARCH · CL_99670 · Jun 17 · 19:59

新方法通过分解不确定性来增强 LLM 智能体的澄清寻求能力

研究人员开发了一种新颖的方法，使 LLM 智能体能够通过分解不确定性来提高其寻求澄清的能力。该方法将行动置信度与请求不确定性分开，使智能体能够在任务规范模糊时主动寻求澄清。该方法在新基准上进行了评估，与现有技术相比，在多个 LLM 主干上澄清 F1 分数有了显著提高。

RESEARCH · CL_93375 · Jun 15 · 09:05

新ACCORD框架将LLM代理任务完成率提升20%

研究人员推出ACCORD，一个旨在通过使语言代理能够更好地将其动作与观察到的环境上下文对齐来提高其性能的新框架。ACCORD通过在每个动作之前主动探查缺失信息并整合代理历史中的相关上下文来解决指令不明确的问题。该方法显著提高了任务完成率，在AppWorld基准测试中，使用GPT-5-mini的完成率提高了多达20.6个百分点，并且在Claude-4.5-sonnet和Qwen3.5-27B-FP8等其他模型上也显示出收益。

RESEARCH · CL_91346 · Jun 15 · 00:00

新的强化学习方法增强大型语言模型训练的稳定性和效率 · 跟踪 7 个来源

研究人员开发了几种新方法来提高大型语言模型 (LLM) 中强化学习 (RL) 的稳定性和效率。STARE 通过根据惊奇度重新加权 token 级优势来解决策略熵崩溃问题，在推理基准测试中显示出更高的准确性。GrowthHacker 利用 LLM 代理自主优化离策略评估 (OPE) 代码，证明了改进 OPE 系统的可行性。ZPPO 将教师模型保留在提示中而不是策略梯度中，从而增强了小型学生模型的知识蒸馏。GD$^2$PO 通过过滤掉具有…

TOOL · CL_81149 · Jun 9 · 15:06

AI代理利用ReAct范式实现自主任务执行

AI代理正成为大型语言模型的主导应用范式，从简单的聊天机器人发展到能够自主感知、推理和行动。这些代理利用思考、行动和观察的循环，通常基于ReAct范式，与外部工具交互并自我纠正。这使得它们能够执行多步任务、访问信息并适应反馈，克服了早期推理方法的局限性。

TOOL · CL_68269 · Jun 3 · 04:00

SkillDAG 通过演化图改进LLM代理技能选择

研究人员开发了SkillDAG，一个将LLM代理的技能间关系建模为类型有向图的新颖系统。该图在执行期间动态更新和查询，使代理能够比传统方法更有效地选择技能。SkillDAG在ALFWorld和SkillsBench等基准测试中表现出显著改进，成功率超越现有基线超过12%。

RESEARCH · CL_65833 · Jun 1 · 13:00

AI代理跨多个环境使用单一重排序器

研究人员开发了一种方法，可以在多个基于文本的代理环境中训练单一的神经网络重排序器来执行动作选择，从而降低推理成本。通过在ALFWorld、WebShop和ScienceWorld上联合训练DeBERTa-v3模型，他们取得了显著的性能提升，并展示了积极的跨领域迁移能力。这种方法具有高度的样本效率，只需极少的微调数据即可恢复可观的性能，并表明数据多样性比模型容量对于跨环境适应更重要。

TOOL · CL_63379 · Jun 1 · 07:34

香港中文大学团队推出SLIM，实现大语言模型智能体的动态技能管理

香港中文大学的研究人员开发了SLIM，一个用于管理大语言模型智能体所用技能生命周期的新框架。SLIM在训练过程中动态评估每个外部技能的贡献，保留有用的技能，淘汰影响减弱的技能，并扩展技能集以应对新的失败场景。这种方法旨在通过超越简单地累积或丢弃技能来优化智能体的性能，使其能够更有效地适应复杂任务。

TOOL · CL_79446 · May 31 · 00:00

AI智能体出现记忆虚构问题，引入新指标RRR

研究人员发现反思性AI智能体存在一个重大问题，它们会形成并保留对任务的错误解释，这种现象被称为“记忆虚构”。即使在环境重置后，这种错误也会持续存在。为了解决这个问题，开发了一个名为反思重复率（RRR）的新指标来检测对错误反思内容的依赖，并提出了一种缓解策略，该策略提高了性能并减少了虚构。

TOOL · CL_58719 · May 29 · 04:00

新论文揭示：AI智能体出现“记忆虚构”

一篇题为《诚实的谎言：理解反思性智能体的记忆虚构》的新研究论文，探讨了使用自我反思作为记忆的AI智能体中的一种关键故障模式。研究表明，即使在环境重置的情况下，这些智能体也能系统地存储并基于对任务的错误解释采取行动。研究人员引入了一个名为“反思重复率”（RRR）的指标来检测此问题，并在ALFWorld和HumanEval基准测试中发现了显著的记忆虚构实例。他们提出了一种缓解策略，用程序化提取故障信号来替代开放式自我诊断，这大大提高了智能…

TOOL · CL_58670 · May 29 · 04:00

新的S3MEM框架增强了AI代理在长时序问答中的记忆能力

研究人员推出了一种新颖的记忆框架S3MEM，旨在提高AI代理在长时序交互式问答中的能力。传统方法在处理大型轨迹历史时会遇到困难，常常检索到不完整的证据。S3MEM通过构建记忆单元和采用锚点敏感检索来解决这一问题，为推理创建了一个更高效的接口。在多个环境中的评估表明，S3MEM在标准RAG的基础上表现持续优越，并能匹配或超越其他先进的记忆系统，同时使用的token数量显著减少。