实体
SkillsBench
SkillsBench
PulseAugur coverage of SkillsBench — every cluster mentioning SkillsBench across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
主题
情绪 · 30 天
3 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
LLM智能体通过技能重写和翻译策略优化成本
研究人员正在探索大型语言模型智能体的成本感知策略,以提高效率和性能。一篇论文介绍了一个技能重写框架,该框架通过保留关键操作锚点来优化成本,从而降低了智能体成本。另一项研究侧重于成本感知的翻译工具使用,开发了一种强化学习策略,该策略能够智能地决定何时翻译输入,以利用LLM的能力而不产生不必要的费用,特别有利于低资源语言。第三篇论文提出了一个用于机器翻译源重写的强化学习框架,该框架直接优化下游翻译质量,性能优于基于提示的方法。
-
SkillDAG 通过演化图改进LLM代理技能选择
研究人员开发了SkillDAG,一个将LLM代理的技能间关系建模为类型有向图的新颖系统。该图在执行期间动态更新和查询,使代理能够比传统方法更有效地选择技能。SkillDAG在ALFWorld和SkillsBench等基准测试中表现出显著改进,成功率超越现有基线超过12%。
-
新论文将“库漂移”识别为 LLM 技能库中的一种沉默故障模式
研究人员在自演化的 LLM 技能库中识别出一种名为“库漂移”的沉默故障模式。当技能在缺乏适当生命周期管理的情况下累积时,就会发生这种情况,导致检索效果下降和性能停滞。一篇新论文提出了一个治理框架,包括基于结果的淘汰和元技能创作来解决这个问题,并在技能库性能方面显示出显著的改进。