PulseAugur
实时 12:13:26
实体 Sharad Agarwal

Sharad Agarwal

PulseAugur coverage of Sharad Agarwal — every cluster mentioning Sharad Agarwal across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_93424 ·

    新的基准测试 WorkflowPerturb 对多智能体 LLM 评估指标进行压力测试

    研究人员推出了一款名为 WorkflowPerturb 的新基准测试,旨在对多智能体 LLM 系统的评估指标进行压力测试。该基准测试包含超过 4,900 个黄金工作流和近 45,000 个扰动变体,涵盖三种类型的更改:缺失步骤、压缩步骤和描述更改。目标是提高指标分数的校准性和可解释性,使工程师能够更好地评估生产环境中更改的安全性。