实体 Saurav Bhattacharya

Saurav Bhattacharya

PulseAugur coverage of Saurav Bhattacharya — every cluster mentioning Saurav Bhattacharya across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_77180 · Jun 8 · 04:32

新的大型语言模型评估框架显示所有测试模型均在对抗性测试中失败

一位开发者创建了一个名为 agent-eval 的新框架，用于测试大型语言模型在代理循环中使用时的安全性和鲁棒性。该框架采用三层评估金字塔，首先进行确定性检查，然后进行统计分析，最后使用大型语言模型作为裁判来处理更复杂的输出。当使用十种对抗性场景（包括提示注入和矛盾指令）对五个不同的大型语言模型进行测试时，所有模型都未能获得满分，表现最好的模型得分仅为 62.5%。

新的大型语言模型评估框架显示所有测试模型均在对抗性测试中失败