实体 SkillsBench

SkillsBench

PulseAugur coverage of SkillsBench — every cluster mentioning SkillsBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_76820 · Jun 5 · 02:21

LLM智能体通过技能重写和翻译策略优化成本

研究人员正在探索大型语言模型智能体的成本感知策略，以提高效率和性能。一篇论文介绍了一个技能重写框架，该框架通过保留关键操作锚点来优化成本，从而降低了智能体成本。另一项研究侧重于成本感知的翻译工具使用，开发了一种强化学习策略，该策略能够智能地决定何时翻译输入，以利用LLM的能力而不产生不必要的费用，特别有利于低资源语言。第三篇论文提出了一个用于机器翻译源重写的强化学习框架，该框架直接优化下游翻译质量，性能优于基于提示的方法。
TOOL · CL_68269 · Jun 3 · 04:00

SkillDAG 通过演化图改进LLM代理技能选择

研究人员开发了SkillDAG，一个将LLM代理的技能间关系建模为类型有向图的新颖系统。该图在执行期间动态更新和查询，使代理能够比传统方法更有效地选择技能。SkillDAG在ALFWorld和SkillsBench等基准测试中表现出显著改进，成功率超越现有基线超过12%。
TOOL · CL_40819 · May 19 · 09:19

新论文将“库漂移”识别为 LLM 技能库中的一种沉默故障模式

研究人员在自演化的 LLM 技能库中识别出一种名为“库漂移”的沉默故障模式。当技能在缺乏适当生命周期管理的情况下累积时，就会发生这种情况，导致检索效果下降和性能停滞。一篇新论文提出了一个治理框架，包括基于结果的淘汰和元技能创作来解决这个问题，并在技能库性能方面显示出显著的改进。